當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI 2022 | 北航提出基于特征纯化的视线估计算法，让机器更好地“看见”

發(fā)布時間：2024/10/8 ChatGpt 111 豆豆

生活随笔收集整理的這篇文章主要介紹了 AAAI 2022 | 北航提出基于特征纯化的视线估计算法，让机器更好地“看见” 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

視線估計算法基于用戶的面部圖片計算其視線方向。然而，面部圖片中除包含有效的人眼區(qū)域信息外，仍包含眾多的視線無關(guān)特征，如個人信息、光照信息。

這些視線無關(guān)特征損害了視線估計的泛化性能，當(dāng)使用環(huán)境更改時，視線估計算法的性能也會出現(xiàn)大幅度的下降。

針對以上挑戰(zhàn)，本期 AI Drive 將邀請北京航空航天大學(xué)程義華博士，介紹其團隊提出的一種基于特征純化的視線估計算法 PureGaze。

這項被 AAAI 2022 接收的研究中，算法利用對抗訓(xùn)練實現(xiàn)了視線特征的純化。純化過程中，算法保留了視線相關(guān)特征而消除視線無關(guān)特征。通過利用此特征純化算法，方法的域泛化性能得到提升，方法也在多個數(shù)據(jù)集上達(dá)到領(lǐng)先的性能。

本文將從三個部分解讀該工作：

背景介紹
實現(xiàn)方法
實驗結(jié)果

域自適應(yīng)問題

視線估計目前不算是很熱門的技術(shù)，但是現(xiàn)在在類似智能車的方面有廣泛的應(yīng)用，它的主要目標(biāo)是用來估計人眼的視線方向。

視線估計的主要目標(biāo)是估計用戶的視線方向，目前在智能車的智能車艙以及虛擬現(xiàn)實、增強顯示中有著廣泛的應(yīng)用。

比如在上圖中，要去判斷這個人的眼睛是看在哪里，相當(dāng)于在現(xiàn)實的任務(wù)中估計一個人其注視的點在哪里、看到的是什么地方、方向，而這種方向是可以作為反映人類意向性的有用信息，因此，視線估計可以用來做一些判斷的事情。

一般來說，一個簡單的網(wǎng)絡(luò)的結(jié)構(gòu)，如圖中所說，輸入一個人臉的圖片，把這個人臉的圖片經(jīng)過一層層地卷積，得到一個三維坐標(biāo)（x，y，z），是由人的眉心到所注視空間的某個點之間的方向向量。

上圖是 2017 年在 CVPR Workshop 里發(fā)表的一篇文章，內(nèi)容是一種比較經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)。即有一個人臉圖片，它輸入的是 448×448 的，經(jīng)過卷積加了一個空間的權(quán)重，最后得到一個二維的 Spatialweights。

在本工作里，主要解決的是視線估計中的 Cross-domain 的問題。Cross-domain 就相當(dāng)于把方法放在一個數(shù)據(jù)集上進行訓(xùn)練，同時在其他的數(shù)據(jù)集上進行測試，這樣就相當(dāng)于在實際之間的應(yīng)用，并通過此獲得一個通用的算法。

但是針對于當(dāng)前的 Cross-domain 來說，很大的問題是在提出的算法上，一般情況下，算法在 domain 里或者說在數(shù)據(jù)集內(nèi)部，經(jīng)常能得到很好的效果，但是一旦讓其去進行 Cross domain 測試的時候，會有比較大的性能差異，差異性可能甚至于直接的將誤差翻倍。

主要的原因可能是由于在采集數(shù)據(jù)的時候，會有不同的環(huán)境因素或者個人的因素影響。如圖列舉的三個數(shù)據(jù)集中間的圖片，可以看出有一些人臉圖片可能會有不同的光照因素，同時，對于不同的人來說，這也是會造成誤差的。

對于本文來說，想要去解決 Cross-domain 問題，有一些以前的相關(guān)工作，大部分人會把這個問題看作是一個 Domain Adaption 的問題。

要在原始的 domain 上訓(xùn)練一個模型，然后要把它遷移到某個其他 domain 的圖片上去，這是一個比較簡單的算法，比如，我們先總的訓(xùn)練一個模型，然后在下游的一些子任務(wù)上面、在一個新的任務(wù)上面把模型進行微調(diào)，也許就能得到好的結(jié)果，這其實也是一種類似于 Domain Adaption 的方法。

這些方法經(jīng)常有兩點要求，第一，需要一個目標(biāo)的數(shù)據(jù)集上面的一些樣本，這樣才能夠做一個 Domain Adaption。

同時，它們還會學(xué)習(xí)到很多模型，對于不同的數(shù)據(jù)集不是說直接地把一個模型就能拿過來用，而是首先需要一段的預(yù)熱，把模型首先在新環(huán)境中間采集一些數(shù)據(jù)；采集數(shù)據(jù)過后，花一段時間去運行、訓(xùn)練，最后才能得到比較好的模型。

而對于我們的方法來說，主要想要解決的是如何不需要且不利用目標(biāo)域的數(shù)據(jù)，因為這樣相當(dāng)于局限了整個模型。我們期望能在原始的數(shù)據(jù)集上學(xué)習(xí)模型，而這個模型把它同時應(yīng)用到多個模型上，也都能達(dá)到比較好的結(jié)果，于是我們采用了域泛化的方法。

如上圖的圖片，相當(dāng)于這個方法總體的想法， Source 層上面會給定它一個圖片以及 Gaze labels，如它的視線方向是哪里，然后，在原始的域上面進行訓(xùn)練，訓(xùn)練完數(shù)據(jù)過后，相當(dāng)于這個數(shù)據(jù)使用了自己的一些方法；比如在過程中提出一個自對抗的任務(wù)，該任務(wù)其核心是叫做 Gaze feature purification（視線特征純化），通過視線特征純化，就能在原始的圖里面學(xué)習(xí)到比較好的模型，并將它在多個目標(biāo)域上面進行測試。

實現(xiàn)方法

首先，這個方法的 Framework 其實是由一個起始的觀察得到。相當(dāng)于在所有的域上面，它本質(zhì)的實現(xiàn)模式是比較相似的。

即不管在什么環(huán)境中，真正來看，以人為的角度去觀察一個人、觀察一個對象的時候，看它的視線方向的時候，其實只是看其眼睛是看哪邊，對于每個人來說，不管其處于什么環(huán)境、或不管對面是什么人，注意力集中的位置就等于是眼球和兩個眼角之間的相對位置。

但自己關(guān)注的本質(zhì)的信息，其實對于其他人來說，可能有一些域的差異，會導(dǎo)致產(chǎn)生影響。

比如說在一個比較暗的環(huán)境中，其實本身的圖像信息，它是和比較暗的環(huán)境信息是融合在一起的，這是并不能如愿所得的，這些環(huán)境信息跟圖像信息融合在一起，這些差異性會導(dǎo)致很多與 Gaze 無關(guān)的因素。

所以，本文的主要想法就是視線特征的純化。這需要把跟視線相關(guān)的特征保留下來，同時把無關(guān)的特征去除，這樣得到的視線相關(guān)特征是比較好實現(xiàn)的，能夠在每個域上面都得到使用。

上圖展示了整體的 framework，如何從左圖中得到結(jié)果，首先輸入一張圖片，這張圖片要保存其中與視線相關(guān)的特征，同時要移除掉類似光照、特征、個人因素的影響，對于這些特征，可以把它映射到一個特征的空間中，即圖中的I 區(qū)域表示整個特征的空間。

通常情況下，只需要提取 G 區(qū)域這一小部分，但是很多情況下提取特征的Z區(qū)域包含很大的空間，其中有很多的無關(guān)特征。為了解決視線特征純化的問題，提出了兩個任務(wù)，這兩個任務(wù)分別是保留視線相關(guān)特征，即提取到的特征區(qū)域包含有更多視線相關(guān)的特征。

同時，對于另一任務(wù)，即移除掉視線無關(guān)的特征，這點是比較棘手的，因為對于視線無關(guān)特征來說，是無法定義清楚到底需要的是什么、需要消除的是什么。在左圖中給出的例子，比如說是光照、個人因素，這是能夠看到的最直接的目標(biāo)。

但是在實際中，視線無關(guān)特征是多不勝數(shù)的，可能直接地在訓(xùn)練一個 gan 網(wǎng)絡(luò)，對于特征來說，要求其不包含有光照信息的方案，一般是只針對于某一種信息，但是沒有辦法根本解決這個問題，這是沒有辦法解決移除掉視線無關(guān)特征的信息，所以要把整體的任務(wù)進行轉(zhuǎn)換，像第一個任務(wù)還是一樣的，保留一個視線信息。

同時，對于第二個任務(wù)，就變成了移除掉所有的圖片信息，原來是對于網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)結(jié)果來說，想讓整個的特征不包含有任何的圖片信息，即對于任務(wù)二，也就如圖中所畫的，把綠色的圓圈盡可能地縮小，讓它越小越好。

而且在這兩個任務(wù)之間進行對抗學(xué)習(xí)，通過對抗學(xué)習(xí)，就能讓其達(dá)到自平衡，因此它能夠去把一些視線無關(guān)的特征去除，也能夠把一些相關(guān)的特征很好地保留。

在這種情況下，在整個任務(wù)中，其實是要求讓整個網(wǎng)絡(luò)結(jié)構(gòu)保留實驗信息，同時讓整個網(wǎng)絡(luò)結(jié)構(gòu)消除所有的圖片信息，即并不要求它保留視線無關(guān)的信息，所以對于網(wǎng)絡(luò)結(jié)構(gòu)、對于網(wǎng)絡(luò)特征來說，它們就是把視線無關(guān)特征，首先去除，然后提取特征，這就叫做純化；通過它純化特征，再使用它來進行視線估計。

所以，整個的 Framework 中，為了解決 Gaze FeaturePurification 的問題，對其中的保留視線相關(guān)特征和移除視線無關(guān)特征，要通過兩個任務(wù)進行，第一個是保留視線信息，第二個是移除掉所有的圖片信息。通過這樣的任務(wù)，達(dá)到 Feature Purification。

上圖展示的是具體的網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置，首先要進行視線特征的純化，即視線估計任務(wù)：保留視線信息。

可以直接看到上面的網(wǎng)絡(luò)結(jié)構(gòu)，即有一張圖片，將圖片輸入到 Backbone 中，然后在 Backbone 中得到特征，再由特征得到 MLP，最后得到 Gaze 信息，這就是一個比較簡單的視線估計網(wǎng)絡(luò)。

對于 Backbone 和 MLP 來說，我們要求它是盡可能精準(zhǔn)地估計視線方向，也是使用任務(wù)一保留視線信息。同時對于任務(wù)二，要去移除所有的圖片信息。怎么讓特征移除掉所有的圖片信息，在這里做了一個假設(shè)。

這是從自動編碼機里衍生出來的想法了，因為在自動編碼機里，這個任務(wù)里一般認(rèn)為，如果一旦原始的圖片輸?shù)缴窠?jīng)網(wǎng)絡(luò)，得到特征，再重建回原來的網(wǎng)絡(luò)、原來的圖片。

如果重建的比較好，就默認(rèn)整個網(wǎng)絡(luò)結(jié)構(gòu)把圖片的特征壓縮成很小的一塊。

所以在這里，我們假設(shè)使用一個重建網(wǎng)絡(luò)，不能從特征中去恢復(fù)出原始的圖片，那就不包含任何的圖片信息。總體的想法是構(gòu)建讓 Backbone 提取特征，中間不包含有圖片信息，這需要讓重建網(wǎng)絡(luò)無法從特征中重建出原始圖片來實現(xiàn)。

在這里整體的網(wǎng)絡(luò)結(jié)構(gòu)如下：輸入一張圖片，將其在 Backbone 中得到特征，而特征通過 SA-Module，一個比較簡單的重建網(wǎng)絡(luò)：其網(wǎng)絡(luò)結(jié)構(gòu)在圖的右側(cè)，基本上講是 Feature maps 經(jīng)過上采樣等步驟，最后得到圖片，再由重建網(wǎng)絡(luò)輸出圖片。

對于重建網(wǎng)絡(luò)，我們要求它是盡可能地從特征中重建回原始圖片。對于 SA-Module 來說，其任務(wù)就是重建任務(wù)。同時，對于Backbone來說，Backbone 其實不是重建任務(wù)，因為它的目標(biāo)不能讓重建網(wǎng)絡(luò)重建圖片。

因此，圖中下側(cè)流程圖的結(jié)構(gòu)其實類似于重建的結(jié)構(gòu)，但是會對它分配不同的損失，一個是重建損失，一個是阻止重建損失。

這樣，兩個網(wǎng)絡(luò)結(jié)構(gòu)就會進行相互的對抗。即 Backbone 是盡可能的讓它重建不出圖片，而如果 Backbone 有一絲松懈，比如漏了圖片信息出來，這時 SA-Module，因為其任務(wù)一絲不茍地從特征重建圖片；通過這種對抗達(dá)到去除圖片信息的效果。

而對于任務(wù)一和任務(wù)二，其實這兩個 Backbone 相當(dāng)于要同時實現(xiàn)兩個工作，一個是視線估計。另一個是實現(xiàn)對抗，即阻止重建，這樣兩個任務(wù)本身會對特征進行純化。圖中的意思即：對于上側(cè)的視線估計網(wǎng)絡(luò)，它盡可能地想多包含一些視線的相關(guān)特征。

另一方面對于 Backbone、對下側(cè)的流程圖來說，它實際上就整個的特征盡可能減少，這樣在特征上進行對抗，來實現(xiàn)特征純化。

上圖右側(cè)是損失函數(shù)的設(shè)計組成，函數(shù)里的前面三個：一個是 Gaze 損失。

在這里用 L1 的損失，即把兩個 Gaze 值相減，然后做絕對值；另外一個重建的損失，會把它重建出來的圖片和原始的圖片進行求 MSE 的損失。

其中還有對抗損失，即 1 減重建損失。

對于每個部件來說，每個部件里包含三個部件，第一個 backbone，我們讓它實現(xiàn)兩個任務(wù)，第一階段是視線估計的任務(wù)，同時還有阻止重建的任務(wù)，在這里給了兩個權(quán)重讓其自己權(quán)衡；而 MLP 就是從其特征中恢復(fù)出原始的視線；對于 SA-Model，就是從特征中間重建出原始的圖片，這三個部分的特征是這樣設(shè)定的。

除此之外，也加了其他的一些損失對原始損失進行修改。

第一個損失叫做局部純化的損失，對于圖片來說，其關(guān)注點更多要在眼睛，因此要讓整個網(wǎng)絡(luò)結(jié)構(gòu)去純化眼睛區(qū)域的特征，這個想法也很簡單，可以通過直接加 attention map，使用其對于阻止重建任務(wù)進行約束。

另外是截斷對抗損失，因為對于對抗重建任務(wù)來說，SA-Module 是要重建出圖片，而 Backbone 是一減重建損失，很明顯，要使重建的損失達(dá)到最小值，就是當(dāng)恢復(fù)出來的圖片和原始的圖片是一模一樣，這時候它才達(dá)到最小點。對于 Backbone 來說，這個時候則會出來一個完全相反的圖片。簡單來說，就是讓整個的網(wǎng)絡(luò)結(jié)構(gòu)不恢復(fù)出原始的圖片，并不是讓它恢復(fù)出跟它相反的圖片，它只要能夠不恢復(fù)圖片就行了，對 SA-Module 從 Backbone 中提取特征，它不包含任何信息，SA-Module 恢復(fù)出一張全白的圖片，也是可以的。這樣就說明了特征中是不包含所有的圖片信息的。

對于損失進行一個階段，我們只要讓它阻止兩個圖片的相像程度能達(dá)到一定效果就可以了。它并不是說完全相反，而是從重建出來的結(jié)果完全一樣和到完全相反，這中間的損失是從小到大的過程，我們只需要其損失達(dá)到一定地步時截斷它，讓它將來保持穩(wěn)定的結(jié)果即可。

實驗結(jié)果

上圖是和 sota 方法的比較，目前是分為兩部分的比較，第一部分是使用 adaption 跟沒有使用 adaption 的方法進行比較。

可以看到，在不使用 adaption 的情況下，對于在 Baseline 上每個數(shù)據(jù)都是有提升的。其中，G 其實是 Gaze360 數(shù)據(jù)集；M 相當(dāng)于是 MPII Gaze 數(shù)據(jù)集；G→M 表示在 Gaze360 上進行訓(xùn)練，同時在 MPII 上測試；D 是 EyeDiap 數(shù)據(jù)集；E 是 ETH-XGaze。需要注意的是，在 G→M、G→D 這兩個任務(wù)，其實只訓(xùn)練了一個模型，就是在 Gaze360 上面訓(xùn)練了同一個模型進行測試，雖然分了兩欄表示，但是總體來說它只是一個模型。

另一方面，因為是跟使用 adaption 的方法進行比較，雖然在新數(shù)據(jù)上都是有一些優(yōu)勢的，但是也有一部分是不如此方法的。因為對于使用 adaption 來說，其會使用很多的目標(biāo)的圖片，而不使用 adaption 是不使用這些圖片的。

另外，對微調(diào)后的結(jié)果來看，Fine-tuned Baseline 比 Fine-tuned PureGaze 的結(jié)果還是要高一點的，這說明了我們的方法，并不是只學(xué)習(xí)了一個比較好的通用模型，而是能夠真正地學(xué)習(xí)到特征的表示，這種特征表示在進行微調(diào)過后，也保持了比較好的效果。

另一方面，這整個網(wǎng)絡(luò)結(jié)構(gòu)的 Framework 是包含兩個任務(wù)的，一個是視線估計任務(wù)，一個是對抗重建任務(wù)。

對于這兩個任務(wù)來說，視線估計的網(wǎng)絡(luò)是并沒有做明確要求的，我們把 Baseline 換成了在實現(xiàn)估計任務(wù)里的一些通用的算術(shù)方法，我們的網(wǎng)絡(luò)結(jié)構(gòu)直接應(yīng)用到其他的方法上，也能達(dá)到比較好的效果提升。

上圖是特征可視化的結(jié)果。因為在這個方法中，對于重建任務(wù)，它是相當(dāng)于重建出原始的圖像，如上圖圖片中的第一行是原始圖像，第二行是原始特征，原始特征其實就是不加對抗中間結(jié)構(gòu)的特征。

第三行的 Purified Feature 就是特征純化的結(jié)果，但是重建出來的圖片能夠明顯看出，對于每個人來說，其實提取到特征中間，每個人看起來都已經(jīng)是學(xué)習(xí)到類似于平均臉的模型。

同時，圖中的小白框里面標(biāo)記的是在采集數(shù)據(jù)的時候，實驗者會在頭部后面墊一個架子，保持頭部盡量地固定好。這就相當(dāng)于這些噪聲也是不小心被捕捉進去了。但是模型其實也能夠把無關(guān)的東西它有一定程度的消除。

對于右邊這張圖，就是代表對于明暗的程度上的變化，在原始的圖片上，會有明暗的交界，這個交界稱其為陰陽臉，對原始的特征來說，恢復(fù)出來的圖片跟原始的圖片差不多，但對暗處就恢復(fù)不清楚，而對于這個方法結(jié)果可以看出，它能夠把總體的光照程度變得差不多，即把光照的因素消除，在消除的同時，還能捕捉出原始的視線信息。

而最下面的一行圖片，其實是對于每張原始圖進行對比度亮度的調(diào)節(jié)，可以看出就跟重建出來的圖片來比較，視線方向是比較類似的。即我們的方法的確是從暗處把眼睛的特征捕捉出來，同時還能夠把那些光照信息消除。

如上圖也可以看出，在圖片亮度達(dá)到最暗（純黑）的情況下，模型依然可以消除一些光照的因素，把非常黑暗的部分中間的特征恢復(fù)出來，而且眼睛也感覺是看的比較好的結(jié)果。

上圖是進行具體測試的結(jié)果。把 PureGaze 和 Baseline 兩個方法在每個光照強度上進行測試，把純化特征帶來的提升把它可視化出來。

可以看得出來，我們的方法它能夠?qū)τ诎堤幰约氨容^偏亮的這兩個區(qū)域來說，其整體的性能是有很大的提升。同時對于中間區(qū)域的提升不是說很大，但是中間特征是比較平均，比其他區(qū)域會少一點。這就說明該方法能夠?qū)庹諒姸扔幸欢ǖ奶幚硇Ч?/p>

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺已發(fā)表或待發(fā)表的文章，請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競爭力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式（微信），以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

總結(jié)

以上是生活随笔為你收集整理的AAAI 2022 | 北航提出基于特征纯化的视线估计算法，让机器更好地“看见”的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：上柴4.3发动机怠速抖动怎么回事呀？
下一篇：埃安新能源车如何关闭倒车影像功能