日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI 2022 | 北航提出基于特征纯化的视线估计算法,让机器更好地“看见”

發(fā)布時間:2024/10/8 ChatGpt 111 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AAAI 2022 | 北航提出基于特征纯化的视线估计算法,让机器更好地“看见” 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

視線估計算法基于用戶的面部圖片計算其視線方向。然而,面部圖片中除包含有效的人眼區(qū)域信息外,仍包含眾多的視線無關(guān)特征,如個人信息、光照信息。

這些視線無關(guān)特征損害了視線估計的泛化性能,當(dāng)使用環(huán)境更改時,視線估計算法的性能也會出現(xiàn)大幅度的下降。

針對以上挑戰(zhàn),本期 AI Drive 將邀請北京航空航天大學(xué)程義華博士,介紹其團隊提出的一種基于特征純化的視線估計算法 PureGaze

這項被 AAAI 2022 接收的研究中,算法利用對抗訓(xùn)練實現(xiàn)了視線特征的純化。純化過程中,算法保留了視線相關(guān)特征而消除視線無關(guān)特征。通過利用此特征純化算法,方法的域泛化性能得到提升,方法也在多個數(shù)據(jù)集上達(dá)到領(lǐng)先的性能。

本文將從三個部分解讀該工作:

  • 背景介紹

  • 實現(xiàn)方法

  • 實驗結(jié)果


域自適應(yīng)問題

視線估計目前不算是很熱門的技術(shù),但是現(xiàn)在在類似智能車的方面有廣泛的應(yīng)用,它的主要目標(biāo)是用來估計人眼的視線方向。

視線估計的主要目標(biāo)是估計用戶的視線方向,目前在智能車的智能車艙以及虛擬現(xiàn)實、增強顯示中有著廣泛的應(yīng)用。

比如在上圖中,要去判斷這個人的眼睛是看在哪里,相當(dāng)于在現(xiàn)實的任務(wù)中估計一個人其注視的點在哪里、看到的是什么地方、方向,而這種方向是可以作為反映人類意向性的有用信息,因此,視線估計可以用來做一些判斷的事情。

一般來說,一個簡單的網(wǎng)絡(luò)的結(jié)構(gòu),如圖中所說,輸入一個人臉的圖片,把這個人臉的圖片經(jīng)過一層層地卷積,得到一個三維坐標(biāo)(x,y,z),是由人的眉心到所注視空間的某個點之間的方向向量。

上圖是 2017 年在 CVPR Workshop 里發(fā)表的一篇文章,內(nèi)容是一種比較經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)。即有一個人臉圖片,它輸入的是 448×448 的,經(jīng)過卷積加了一個空間的權(quán)重,最后得到一個二維的 Spatialweights。

在本工作里,主要解決的是視線估計中的 Cross-domain 的問題。Cross-domain 就相當(dāng)于把方法放在一個數(shù)據(jù)集上進行訓(xùn)練,同時在其他的數(shù)據(jù)集上進行測試,這樣就相當(dāng)于在實際之間的應(yīng)用,并通過此獲得一個通用的算法。

但是針對于當(dāng)前的 Cross-domain 來說,很大的問題是在提出的算法上,一般情況下,算法在 domain 里或者說在數(shù)據(jù)集內(nèi)部,經(jīng)常能得到很好的效果,但是一旦讓其去進行 Cross domain 測試的時候,會有比較大的性能差異,差異性可能甚至于直接的將誤差翻倍。

主要的原因可能是由于在采集數(shù)據(jù)的時候,會有不同的環(huán)境因素或者個人的因素影響。如圖列舉的三個數(shù)據(jù)集中間的圖片,可以看出有一些人臉圖片可能會有不同的光照因素,同時,對于不同的人來說,這也是會造成誤差的。

對于本文來說,想要去解決 Cross-domain 問題,有一些以前的相關(guān)工作,大部分人會把這個問題看作是一個 Domain Adaption 的問題。

要在原始的 domain 上訓(xùn)練一個模型,然后要把它遷移到某個其他 domain 的圖片上去,這是一個比較簡單的算法,比如,我們先總的訓(xùn)練一個模型,然后在下游的一些子任務(wù)上面、在一個新的任務(wù)上面把模型進行微調(diào),也許就能得到好的結(jié)果,這其實也是一種類似于 Domain Adaption 的方法。

這些方法經(jīng)常有兩點要求,第一,需要一個目標(biāo)的數(shù)據(jù)集上面的一些樣本,這樣才能夠做一個 Domain Adaption。

同時,它們還會學(xué)習(xí)到很多模型,對于不同的數(shù)據(jù)集不是說直接地把一個模型就能拿過來用,而是首先需要一段的預(yù)熱,把模型首先在新環(huán)境中間采集一些數(shù)據(jù);采集數(shù)據(jù)過后,花一段時間去運行、訓(xùn)練,最后才能得到比較好的模型。

而對于我們的方法來說,主要想要解決的是如何不需要且不利用目標(biāo)域的數(shù)據(jù),因為這樣相當(dāng)于局限了整個模型。我們期望能在原始的數(shù)據(jù)集上學(xué)習(xí)模型,而這個模型把它同時應(yīng)用到多個模型上,也都能達(dá)到比較好的結(jié)果,于是我們采用了域泛化的方法。

如上圖的圖片,相當(dāng)于這個方法總體的想法, Source 層上面會給定它一個圖片以及 Gaze labels,如它的視線方向是哪里,然后,在原始的域上面進行訓(xùn)練,訓(xùn)練完數(shù)據(jù)過后,相當(dāng)于這個數(shù)據(jù)使用了自己的一些方法;比如在過程中提出一個自對抗的任務(wù),該任務(wù)其核心是叫做 Gaze feature purification(視線特征純化),通過視線特征純化,就能在原始的圖里面學(xué)習(xí)到比較好的模型,并將它在多個目標(biāo)域上面進行測試。


實現(xiàn)方法

首先,這個方法的 Framework 其實是由一個起始的觀察得到。相當(dāng)于在所有的域上面,它本質(zhì)的實現(xiàn)模式是比較相似的。

即不管在什么環(huán)境中,真正來看,以人為的角度去觀察一個人、觀察一個對象的時候,看它的視線方向的時候,其實只是看其眼睛是看哪邊,對于每個人來說,不管其處于什么環(huán)境、或不管對面是什么人,注意力集中的位置就等于是眼球和兩個眼角之間的相對位置。

但自己關(guān)注的本質(zhì)的信息,其實對于其他人來說,可能有一些域的差異,會導(dǎo)致產(chǎn)生影響。

比如說在一個比較暗的環(huán)境中,其實本身的圖像信息,它是和比較暗的環(huán)境信息是融合在一起的,這是并不能如愿所得的,這些環(huán)境信息跟圖像信息融合在一起,這些差異性會導(dǎo)致很多與 Gaze 無關(guān)的因素。

所以,本文的主要想法就是視線特征的純化。這需要把跟視線相關(guān)的特征保留下來,同時把無關(guān)的特征去除,這樣得到的視線相關(guān)特征是比較好實現(xiàn)的,能夠在每個域上面都得到使用。

上圖展示了整體的 framework,如何從左圖中得到結(jié)果,首先輸入一張圖片,這張圖片要保存其中與視線相關(guān)的特征,同時要移除掉類似光照、特征、個人因素的影響,對于這些特征,可以把它映射到一個特征的空間中,即圖中的I 區(qū)域表示整個特征的空間。

通常情況下,只需要提取 G 區(qū)域這一小部分,但是很多情況下提取特征的Z區(qū)域包含很大的空間,其中有很多的無關(guān)特征。為了解決視線特征純化的問題,提出了兩個任務(wù),這兩個任務(wù)分別是保留視線相關(guān)特征,即提取到的特征區(qū)域包含有更多視線相關(guān)的特征。

同時,對于另一任務(wù),即移除掉視線無關(guān)的特征,這點是比較棘手的,因為對于視線無關(guān)特征來說,是無法定義清楚到底需要的是什么、需要消除的是什么。在左圖中給出的例子,比如說是光照、個人因素,這是能夠看到的最直接的目標(biāo)。

但是在實際中,視線無關(guān)特征是多不勝數(shù)的,可能直接地在訓(xùn)練一個 gan 網(wǎng)絡(luò),對于特征來說,要求其不包含有光照信息的方案,一般是只針對于某一種信息,但是沒有辦法根本解決這個問題,這是沒有辦法解決移除掉視線無關(guān)特征的信息,所以要把整體的任務(wù)進行轉(zhuǎn)換,像第一個任務(wù)還是一樣的,保留一個視線信息。

同時,對于第二個任務(wù),就變成了移除掉所有的圖片信息,原來是對于網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)結(jié)果來說,想讓整個的特征不包含有任何的圖片信息,即對于任務(wù)二,也就如圖中所畫的,把綠色的圓圈盡可能地縮小,讓它越小越好。

而且在這兩個任務(wù)之間進行對抗學(xué)習(xí),通過對抗學(xué)習(xí),就能讓其達(dá)到自平衡,因此它能夠去把一些視線無關(guān)的特征去除,也能夠把一些相關(guān)的特征很好地保留。

在這種情況下,在整個任務(wù)中,其實是要求讓整個網(wǎng)絡(luò)結(jié)構(gòu)保留實驗信息,同時讓整個網(wǎng)絡(luò)結(jié)構(gòu)消除所有的圖片信息,即并不要求它保留視線無關(guān)的信息,所以對于網(wǎng)絡(luò)結(jié)構(gòu)、對于網(wǎng)絡(luò)特征來說,它們就是把視線無關(guān)特征,首先去除,然后提取特征,這就叫做純化;通過它純化特征,再使用它來進行視線估計。

所以,整個的 Framework 中,為了解決 Gaze FeaturePurification 的問題,對其中的保留視線相關(guān)特征和移除視線無關(guān)特征,要通過兩個任務(wù)進行,第一個是保留視線信息,第二個是移除掉所有的圖片信息。通過這樣的任務(wù),達(dá)到 Feature Purification。

上圖展示的是具體的網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置,首先要進行視線特征的純化,即視線估計任務(wù):保留視線信息。

可以直接看到上面的網(wǎng)絡(luò)結(jié)構(gòu),即有一張圖片,將圖片輸入到 Backbone 中,然后在 Backbone 中得到特征,再由特征得到 MLP,最后得到 Gaze 信息,這就是一個比較簡單的視線估計網(wǎng)絡(luò)。

對于 Backbone 和 MLP 來說,我們要求它是盡可能精準(zhǔn)地估計視線方向,也是使用任務(wù)一保留視線信息。同時對于任務(wù)二,要去移除所有的圖片信息。怎么讓特征移除掉所有的圖片信息,在這里做了一個假設(shè)。

這是從自動編碼機里衍生出來的想法了,因為在自動編碼機里,這個任務(wù)里一般認(rèn)為,如果一旦原始的圖片輸?shù)缴窠?jīng)網(wǎng)絡(luò),得到特征,再重建回原來的網(wǎng)絡(luò)、原來的圖片。

如果重建的比較好,就默認(rèn)整個網(wǎng)絡(luò)結(jié)構(gòu)把圖片的特征壓縮成很小的一塊。

所以在這里,我們假設(shè)使用一個重建網(wǎng)絡(luò),不能從特征中去恢復(fù)出原始的圖片,那就不包含任何的圖片信息。總體的想法是構(gòu)建讓 Backbone 提取特征,中間不包含有圖片信息,這需要讓重建網(wǎng)絡(luò)無法從特征中重建出原始圖片來實現(xiàn)。

在這里整體的網(wǎng)絡(luò)結(jié)構(gòu)如下:輸入一張圖片,將其在 Backbone 中得到特征,而特征通過 SA-Module,一個比較簡單的重建網(wǎng)絡(luò):其網(wǎng)絡(luò)結(jié)構(gòu)在圖的右側(cè),基本上講是 Feature maps 經(jīng)過上采樣等步驟,最后得到圖片,再由重建網(wǎng)絡(luò)輸出圖片。

對于重建網(wǎng)絡(luò),我們要求它是盡可能地從特征中重建回原始圖片。對于 SA-Module 來說,其任務(wù)就是重建任務(wù)。同時,對于Backbone來說,Backbone 其實不是重建任務(wù),因為它的目標(biāo)不能讓重建網(wǎng)絡(luò)重建圖片。

因此,圖中下側(cè)流程圖的結(jié)構(gòu)其實類似于重建的結(jié)構(gòu),但是會對它分配不同的損失,一個是重建損失,一個是阻止重建損失。

這樣,兩個網(wǎng)絡(luò)結(jié)構(gòu)就會進行相互的對抗。即 Backbone 是盡可能的讓它重建不出圖片,而如果 Backbone 有一絲松懈,比如漏了圖片信息出來,這時 SA-Module,因為其任務(wù)一絲不茍地從特征重建圖片;通過這種對抗達(dá)到去除圖片信息的效果。

而對于任務(wù)一和任務(wù)二,其實這兩個 Backbone 相當(dāng)于要同時實現(xiàn)兩個工作,一個是視線估計。另一個是實現(xiàn)對抗,即阻止重建,這樣兩個任務(wù)本身會對特征進行純化。圖中的意思即:對于上側(cè)的視線估計網(wǎng)絡(luò),它盡可能地想多包含一些視線的相關(guān)特征。

另一方面對于 Backbone、對下側(cè)的流程圖來說,它實際上就整個的特征盡可能減少,這樣在特征上進行對抗,來實現(xiàn)特征純化。

上圖右側(cè)是損失函數(shù)的設(shè)計組成,函數(shù)里的前面三個:一個是 Gaze 損失。

在這里用 L1 的損失,即把兩個 Gaze 值相減,然后做絕對值;另外一個重建的損失,會把它重建出來的圖片和原始的圖片進行求 MSE 的損失。

其中還有對抗損失,即 1 減重建損失。

對于每個部件來說,每個部件里包含三個部件,第一個 backbone,我們讓它實現(xiàn)兩個任務(wù),第一階段是視線估計的任務(wù),同時還有阻止重建的任務(wù),在這里給了兩個權(quán)重讓其自己權(quán)衡;而 MLP 就是從其特征中恢復(fù)出原始的視線;對于 SA-Model,就是從特征中間重建出原始的圖片,這三個部分的特征是這樣設(shè)定的。

除此之外,也加了其他的一些損失對原始損失進行修改。

第一個損失叫做局部純化的損失,對于圖片來說,其關(guān)注點更多要在眼睛,因此要讓整個網(wǎng)絡(luò)結(jié)構(gòu)去純化眼睛區(qū)域的特征,這個想法也很簡單,可以通過直接加 attention map,使用其對于阻止重建任務(wù)進行約束。

另外是截斷對抗損失,因為對于對抗重建任務(wù)來說,SA-Module 是要重建出圖片,而 Backbone 是一減重建損失,很明顯,要使重建的損失達(dá)到最小值,就是當(dāng)恢復(fù)出來的圖片和原始的圖片是一模一樣,這時候它才達(dá)到最小點。對于 Backbone 來說,這個時候則會出來一個完全相反的圖片。簡單來說,就是讓整個的網(wǎng)絡(luò)結(jié)構(gòu)不恢復(fù)出原始的圖片,并不是讓它恢復(fù)出跟它相反的圖片,它只要能夠不恢復(fù)圖片就行了,對 SA-Module 從 Backbone 中提取特征,它不包含任何信息,SA-Module 恢復(fù)出一張全白的圖片,也是可以的。這樣就說明了特征中是不包含所有的圖片信息的。

對于損失進行一個階段,我們只要讓它阻止兩個圖片的相像程度能達(dá)到一定效果就可以了。它并不是說完全相反,而是從重建出來的結(jié)果完全一樣和到完全相反,這中間的損失是從小到大的過程,我們只需要其損失達(dá)到一定地步時截斷它,讓它將來保持穩(wěn)定的結(jié)果即可。

實驗結(jié)果

上圖是和 sota 方法的比較,目前是分為兩部分的比較,第一部分是使用 adaption 跟沒有使用 adaption 的方法進行比較。

可以看到,在不使用 adaption 的情況下,對于在 Baseline 上每個數(shù)據(jù)都是有提升的。其中,G 其實是 Gaze360 數(shù)據(jù)集;M 相當(dāng)于是 MPII Gaze 數(shù)據(jù)集;G→M 表示在 Gaze360 上進行訓(xùn)練,同時在 MPII 上測試;D 是 EyeDiap 數(shù)據(jù)集;E 是 ETH-XGaze。需要注意的是,在 G→M、G→D 這兩個任務(wù),其實只訓(xùn)練了一個模型,就是在 Gaze360 上面訓(xùn)練了同一個模型進行測試,雖然分了兩欄表示,但是總體來說它只是一個模型。

另一方面,因為是跟使用 adaption 的方法進行比較,雖然在新數(shù)據(jù)上都是有一些優(yōu)勢的,但是也有一部分是不如此方法的。因為對于使用 adaption 來說,其會使用很多的目標(biāo)的圖片,而不使用 adaption 是不使用這些圖片的。

另外,對微調(diào)后的結(jié)果來看,Fine-tuned Baseline 比 Fine-tuned PureGaze 的結(jié)果還是要高一點的,這說明了我們的方法,并不是只學(xué)習(xí)了一個比較好的通用模型,而是能夠真正地學(xué)習(xí)到特征的表示,這種特征表示在進行微調(diào)過后,也保持了比較好的效果。

另一方面,這整個網(wǎng)絡(luò)結(jié)構(gòu)的 Framework 是包含兩個任務(wù)的,一個是視線估計任務(wù),一個是對抗重建任務(wù)。

對于這兩個任務(wù)來說,視線估計的網(wǎng)絡(luò)是并沒有做明確要求的,我們把 Baseline 換成了在實現(xiàn)估計任務(wù)里的一些通用的算術(shù)方法,我們的網(wǎng)絡(luò)結(jié)構(gòu)直接應(yīng)用到其他的方法上,也能達(dá)到比較好的效果提升。

上圖是特征可視化的結(jié)果。因為在這個方法中,對于重建任務(wù),它是相當(dāng)于重建出原始的圖像,如上圖圖片中的第一行是原始圖像,第二行是原始特征,原始特征其實就是不加對抗中間結(jié)構(gòu)的特征。

第三行的 Purified Feature 就是特征純化的結(jié)果,但是重建出來的圖片能夠明顯看出,對于每個人來說,其實提取到特征中間,每個人看起來都已經(jīng)是學(xué)習(xí)到類似于平均臉的模型。

同時,圖中的小白框里面標(biāo)記的是在采集數(shù)據(jù)的時候,實驗者會在頭部后面墊一個架子,保持頭部盡量地固定好。這就相當(dāng)于這些噪聲也是不小心被捕捉進去了。但是模型其實也能夠把無關(guān)的東西它有一定程度的消除。

對于右邊這張圖,就是代表對于明暗的程度上的變化,在原始的圖片上,會有明暗的交界,這個交界稱其為陰陽臉,對原始的特征來說,恢復(fù)出來的圖片跟原始的圖片差不多,但對暗處就恢復(fù)不清楚,而對于這個方法結(jié)果可以看出,它能夠把總體的光照程度變得差不多,即把光照的因素消除,在消除的同時,還能捕捉出原始的視線信息。

而最下面的一行圖片,其實是對于每張原始圖進行對比度亮度的調(diào)節(jié),可以看出就跟重建出來的圖片來比較,視線方向是比較類似的。即我們的方法的確是從暗處把眼睛的特征捕捉出來,同時還能夠把那些光照信息消除。

如上圖也可以看出,在圖片亮度達(dá)到最暗(純黑)的情況下,模型依然可以消除一些光照的因素,把非常黑暗的部分中間的特征恢復(fù)出來,而且眼睛也感覺是看的比較好的結(jié)果。

上圖是進行具體測試的結(jié)果。把 PureGaze 和 Baseline 兩個方法在每個光照強度上進行測試,把純化特征帶來的提升把它可視化出來。

可以看得出來,我們的方法它能夠?qū)τ诎堤幰约氨容^偏亮的這兩個區(qū)域來說,其整體的性能是有很大的提升。同時對于中間區(qū)域的提升不是說很大,但是中間特征是比較平均,比其他區(qū)域會少一點。這就說明該方法能夠?qū)庹諒姸扔幸欢ǖ奶幚硇Ч?/p>

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的AAAI 2022 | 北航提出基于特征纯化的视线估计算法,让机器更好地“看见”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。