人脸标记检测:ICCV2019论文解析
人臉標記檢測:ICCV2019論文解析
Learning Robust Facial Landmark Detection
via Hierarchical Structured Ensemble
論文鏈接:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Zou_Learning_Robust_Facial_Landmark_Detection_via_Hierarchical_Structured_Ensemble_ICCV_2019_paper.pdf
摘要
基于熱圖回歸的模型極大地促進了面部地標檢測的進展。然而,缺乏結(jié)構(gòu)約束總是會產(chǎn)生不準確的熱圖,導(dǎo)致地標檢測性能差。雖然人們提出了層次結(jié)構(gòu)建模方法來解決這一問題,但它們都嚴重依賴于人工設(shè)計的樹結(jié)構(gòu)。由于缺少或不準確地預(yù)測地標,設(shè)計的層次結(jié)構(gòu)可能會被完全破壞。據(jù)本文所知,在深度學習的背景下,以前沒有研究過如何通過發(fā)現(xiàn)面部標志點的內(nèi)在關(guān)系,自動為其建立適當?shù)慕Y(jié)構(gòu)模型。
本文提出了一種新的分層結(jié)構(gòu)地標集成(HSLE)模型,將其作為結(jié)構(gòu)約束,用于學習魯棒的人臉地標檢測。與現(xiàn)有的人工設(shè)計結(jié)構(gòu)的方法不同,本文提出的HSLE模型是通過發(fā)現(xiàn)最穩(wěn)健的模式來自動構(gòu)建的,因此HSLE能夠同時健壯地描述局部和整體的地標結(jié)構(gòu)。本文提出的HSLE可以很容易地插入到任何現(xiàn)有的面部地標檢測基線中,以進一步提高性能。大量的實驗結(jié)果表明,本文的方法在獲得最新性能方面顯著優(yōu)于基線。
- Introduction
面部地標檢測,稱為面部定位,是許多面部分析任務(wù)的關(guān)鍵,包括面部識別[35,64,30],面部建模[17,24]。由于面部形狀、頭部姿勢、光線條件和背景遮擋的變化很大,面部地標檢測仍然具有挑戰(zhàn)性。最近,基于熱圖回歸的模型[49,57,36,52,51]推動了面部地標檢測的進展。基于熱圖回歸的模型之所以成功,是因為利用似然熱圖來表示地標位置的概率分布。但是,如果出現(xiàn)異常情況(例如遮擋、照明、噪音或不受約束的姿勢/表情變化),則會產(chǎn)生不準確的熱圖(例如帶有偏差或干擾的熱圖),等)由于可靠性低或不充分的識別,導(dǎo)致面部標志點(圖1.Row1)定位不準確甚至不正確。為了解決這一問題,基于heatmap回歸模型的結(jié)構(gòu)建模被提出,并在人臉標志點檢測中取得了很好的效果,因為利用人臉標志點的結(jié)構(gòu)約束可以修正和正確地重建上述不準確/模糊的標志點。然而,現(xiàn)有的整體結(jié)構(gòu)建模對地標預(yù)測質(zhì)量敏感,由于無約束的異常情況導(dǎo)致的地標缺失或檢測不準確,所建結(jié)構(gòu)可能完全失效,如圖1.Row2所示。
因此,通過同時對標志點的整體和局部結(jié)構(gòu)進行建模,人臉標志點的定位變得更加穩(wěn)健。利用層次結(jié)構(gòu)模型進行有效的局部結(jié)構(gòu)建模,而不是用一個整體的密集連通圖同時對既不具有資源效率也不具有推理能力的人臉標志的整體結(jié)構(gòu)和局部結(jié)構(gòu)進行建模。 在人臉標記檢測領(lǐng)域,很少有文獻[20,9,52]提出基于人工設(shè)計的樹狀層次結(jié)構(gòu)的人臉標記層次化建模方法。
然而,由于人工設(shè)計的樹狀結(jié)構(gòu)會因為標記的檢測失敗而被完全破壞,因此它們的性能對人臉標記的檢測不具有魯棒性。
因此,在這項工作中,本文試圖回答一個重要的問題:本文能否自動構(gòu)建一個更適合學習魯棒性面部地標檢測的層次結(jié)構(gòu)?
本文提出了一種新的層次結(jié)構(gòu)地標集合(HSLE)模型,用以層次化地表示人臉地標的整體和局部結(jié)構(gòu)。
在這項工作中,本文首先將地標聚類成不同的組,每個組共享相同的地標,這使得本文的模型具有層次結(jié)構(gòu)。HSLE本質(zhì)上是一個有向圖,它是為每個群自動構(gòu)造的。 HSLE中的每個節(jié)點表示預(yù)先定義的地標,并且從連接節(jié)點之間傳遞的信息得到的關(guān)系表示為HSLE中的邊。為了構(gòu)造HSLE最可靠的結(jié)構(gòu),利用有限覆蓋集模型發(fā)現(xiàn)節(jié)點間最穩(wěn)健的連接。
由于從HSLE傳播的結(jié)構(gòu)約束,通過以端到端的方式與HSLE聯(lián)合訓(xùn)練,基線面部地標檢測器變得更加健壯(圖1.Row3)。
在這項工作中,本文的貢獻有四個方面:
(1)提出了一種新的層次結(jié)構(gòu)地標集合(HSLE)模型,用于描述人臉地標的整體和局部結(jié)構(gòu)。本文提出的HSLE可以很容易地插入到任何現(xiàn)有的面部地標檢測基線中,以進一步提高性能。
(2)由于HSLE傳播的結(jié)構(gòu)約束,通過端到端的方式與HSLE聯(lián)合訓(xùn)練,使得基線人臉地標檢測變得更加健壯。
(3)與上述基于人工結(jié)構(gòu)設(shè)計的方法相比,本文的自動學習層次結(jié)構(gòu)通過發(fā)現(xiàn)最穩(wěn)健的模式從數(shù)據(jù)中自動挖掘出結(jié)構(gòu)約束,因此對故障標志點檢測更可靠、更穩(wěn)健。 (4) 本文的方法大大優(yōu)于基準,以獲得最新的結(jié)果。在300W數(shù)據(jù)集[40,41,42]和AFLW數(shù)據(jù)集[34]上進行了大量實驗,驗證了模型的有效性。
2. Related Works
自1992年以來,在面部地標檢測領(lǐng)域取得了許多令人矚目的成就。由于只有具有足夠辨別力的地標(如眼角、鼠標角和鼻尖等)才能可靠地定位,結(jié)構(gòu)約束通常被以前的經(jīng)典藝術(shù)品采用,包括活動形狀模型[13、10、37、12]、活動外觀模型[11、18、43、23、46、31]、受約束的局部模型[14,29、44、2、28、45]和級聯(lián)回歸模型[6、58、65、39、7、8、25、47、66、22、55、54、56、67、19、51]。
這些方法大多從初始形狀(如平均面部形狀[3])開始,或者使用點分布模型(如[5,60])來實施這種約束。近年來,深卷積神經(jīng)網(wǎng)絡(luò)(CNN)在人臉標志點檢測方面取得了新的進展[48、61、62、63、59、55、50、33]。特別是,最先進的面部地標檢測性能主要是通過使用熱圖回歸模型來實現(xiàn)的[49、57、36、52、51]。Merget等人[36]引入了一個完全卷積的局部全局上下文網(wǎng)絡(luò),并將一個簡單的基于PCA的二維形狀模型定義為一個整體結(jié)構(gòu)約束。吳等人[52]提出了一種以邊界線為幾何結(jié)構(gòu)的邊界感知人臉對齊模型。 很少有文獻[20,9]關(guān)注整體和局部結(jié)構(gòu)的層次建模。
Ghiasiet al.[20]提出了一種用于面部標記定位的分層可變形零件模型,該模型由一個手動設(shè)計的零件樹組成。每個部分都連接到星型拓撲中的一組地標。如果樹的根節(jié)點丟失,它們的模型將失敗。Chu等人[9]提出了一個結(jié)構(gòu)化的特征學習框架來解釋人體姿勢估計中身體關(guān)節(jié)之間的相關(guān)性。文[52]中還采用了雙向樹結(jié)構(gòu)模型,該模型通過手工指定在相鄰關(guān)節(jié)之間傳遞信息。
由于人臉標志點的數(shù)目遠大于姿態(tài)估計中使用的關(guān)節(jié)數(shù)目,因此,人工設(shè)計的樹結(jié)構(gòu)也不能很好地解決這么多人臉標志點之間的信息傳遞問題。與文獻[20]和[9]不同,本文提出的HSLE模型是通過發(fā)現(xiàn)最穩(wěn)健的模式來自動構(gòu)造的。因此,本文的HSLE能夠同時有力地描述局部和整體地標結(jié)構(gòu)。據(jù)本文所知,本文的工作是第一個為地標自動建模的工作,通過發(fā)現(xiàn)它們的內(nèi)在關(guān)系。
- Our Method
如導(dǎo)言所述,同時對整體和局部結(jié)構(gòu)進行建模將有助于更有力地定位面部標志點。提出了一種分層結(jié)構(gòu)地標集成(HSLE)模型,將其作為結(jié)構(gòu)約束,用于學習魯棒的人臉地標檢測。擬議方法的框架如圖2所示。整個模型可以以端到端的方式共同學習。提出的HSLE模型作為人臉標志點的層次結(jié)構(gòu)約束。
在這一部分中,本文在回顧傳統(tǒng)的覆蓋集模型的基礎(chǔ)上,初步提出了本文的層次結(jié)構(gòu)地標集成(HSLE)模型。然后提出了將地標聚類為集合的策略。最后,本文介紹了構(gòu)建HSLE模型的模式發(fā)現(xiàn)方法以及一些訓(xùn)練問題。
然而,不恰當?shù)牡貥私Y(jié)構(gòu)會使結(jié)構(gòu)約束失效。例如,有兩個不合適的地標組合,如圖3(a)和圖3(b)所示。在圖3(a)中,如果節(jié)點“C”丟失,其他節(jié)點將不會收到任何信息。在圖3(b)中,如果節(jié)點“C”丟失,其他節(jié)點將被誤導(dǎo),因為其他節(jié)點只能從一個節(jié)點接收信息。Dai等人[15]提出了一個檢測器集合的覆蓋集的概念。(n,t,m)覆蓋集是由若干m元子結(jié)構(gòu)組成的n元集。對于任何t單元,必須存在至少一個m單元子結(jié)構(gòu),其單元都屬于這些t單元。也就是說,如果錯過的節(jié)點不超過(n-t)個,則至少存在一個子結(jié)構(gòu)。圖3(c)和圖3(d)示出了兩個不同的(5,4,3)覆蓋集,圖3(e)示出了一個完全連通圖,它也是(5,3,3)覆蓋集。
節(jié)點和邊
如上所述,HSLE本質(zhì)上是一個有向圖模型。HSLE中的每個節(jié)點都表示預(yù)先確定的地標。由連接節(jié)點之間傳遞的信息表示的關(guān)系在HSLE中表示為邊。在[9]之后,本文實現(xiàn)了作為卷積核的信息傳遞。這個有限的覆蓋集模型強制要求每個地標至少包含在一個子結(jié)構(gòu)中。圖3(f)示出了一個構(gòu)建的地標集合的示例。
相對關(guān)系穩(wěn)定的地標(一對地標之間的關(guān)系應(yīng)在一定程度上對頭部姿態(tài)或面部表情保持不變)最好聚類成同一個集合。地標聚類操作的目標函數(shù)可以寫成:
為了解決這個問題,本文首先隨機選取一幅訓(xùn)練圖像。圖像中的地標被聚集成 利用K-means的不同群體[32]。如果一個地標的差異小于一個閾值,它可能同時被分為不同的組。地標和聚類中心之間的距離將由V2重新確定,以滿足等式3中定義的約束條件。為當前聚類結(jié)果計算E。本文多次運行這個過程,選擇E最小的聚類結(jié)果作為構(gòu)建HSLE的最終聚類結(jié)果。
由于求解方程2是一個組合優(yōu)化問題,因此將采用由[15]啟發(fā)的隨機方法來確定HSLE的最穩(wěn)健結(jié)構(gòu)。將每個集合的有限覆蓋集初始化為全連通圖。在每個步驟中,如果滿足等式2中定義的約束條件,本文將從任意有限覆蓋集中隨機移除一條邊。在包含更多邊的集合中,具有更高誤差度量的地標之間的邊具有更大的移除概率。此過程結(jié)束,直到獲得最小有限覆蓋集的集合。這個集合中的所有元素一起構(gòu)成了HSLE的結(jié)構(gòu)。為了實現(xiàn)最穩(wěn)健的結(jié)構(gòu),類似于地標聚類策略,本文將整個過程運行多次。選擇誤差測度最小的最小有限覆蓋集集合來構(gòu)造HSLE結(jié)構(gòu)。結(jié)構(gòu)構(gòu)造過程總結(jié)為算法1,f(·)是計算剩余邊數(shù)的函數(shù)。
4. Experiment
為了驗證模型的有效性,本文在兩個數(shù)據(jù)集上對模型進行了評估。300W[40,41,42]:訓(xùn)練用3148幅圖像,測試用689幅圖像。測試數(shù)據(jù)集分為三個子集:公共子集(554個圖像)、挑戰(zhàn)子集(135個圖像)和完整子集(689個圖像)。每幅圖像都有68個地標。AFLWFull[67]:訓(xùn)練用20k圖像和測試用4386圖像。每幅圖像都有19個地標。為了在準確度和效率之間進行權(quán)衡,使用17個集合在300W數(shù)據(jù)集上分層描述68個面部標志點的結(jié)構(gòu),使用4/5/8/11/14集合分別在AFLW數(shù)據(jù)集上分層描述19個面部標志點的結(jié)構(gòu)。每個系綜由13個3元子結(jié)構(gòu)組成的(6,4,3)有限覆蓋集組成。
在300W[40,41,42]數(shù)據(jù)集上,本文將端到端訓(xùn)練模型與最新方法進行了比較。本文報告了由瞳孔間距離(ipd范數(shù))和眼間距離(iod范數(shù))標準化的平均點對點歐氏誤差,以及由眼間距離(iod范數(shù))標準化的中值點對點歐氏誤差。為了與所有其他方法進行比較,本文展示了文獻中發(fā)表的原始結(jié)果。結(jié)果見表1。 實驗結(jié)果表明,本文的方法持續(xù)且顯著地優(yōu)于3種不同的最新基線,從而獲得與最新方法相當?shù)慕Y(jié)果。也就是說,由于HSLE傳播的結(jié)構(gòu)約束,通過與HSLE聯(lián)合訓(xùn)練,基線面部地標檢測器變得更加健壯。這一現(xiàn)象表明,通過學習層次結(jié)構(gòu)約束,人臉地標檢測具有更強的魯棒性。在300W數(shù)據(jù)集上,本文將本文提出的模型的累積誤差分布曲線與8Stacked Hourglass[38]基線模型進行對比,如圖4所示。
由于不同的面部標志具有不同的辨別力,因此應(yīng)該為更具辨別力的標志分配更高的權(quán)重。為此,本文報告了300W數(shù)據(jù)集上的加權(quán)平均iod范數(shù)誤差。本文根據(jù)68個面部標志的區(qū)別將其分為三類(圖5)。a類包含具有最低區(qū)分的地標(例如輪廓),c類包含具有最高區(qū)分的地標(例如眼角),b類包含所有其他剩余的地標。本文根據(jù)地標的類別賦予它們不同的權(quán)重。結(jié)果見表2。第一列中的數(shù)字表示相關(guān)權(quán)重。從表2中可以了解到,通過本文的HSLE模型,具有更高辨別力的面部標志可以實現(xiàn)更多的改進,這使得本文提出的想法對于大多數(shù)應(yīng)用來說更有意義。
300W數(shù)據(jù)集的一些定性結(jié)果如圖6所示。不同顏色邊界的圖像分別來自一個基線和所提出的HSLE模型。無約束條件下的圖像結(jié)果表明,由于HSLE模型傳播的結(jié)構(gòu)約束,采用端到端的方式與HSLE聯(lián)合訓(xùn)練,使得基線人臉地標檢測器具有更強的魯棒性。
- Discussion
為了更清楚地研究HSLE模型對整體性能的影響,本文進一步對AFLW數(shù)據(jù)集進行了補充實驗[34]。為了進行評估,使用了AFLW完整方案[67]。如表3所示,本文的方法可以實現(xiàn)一致的改進。
不同基線的實驗
本文在表1中報告了3個不同的最新基線的結(jié)果。實驗結(jié)果驗證了該方法的有效性。本文進一步以堆疊的沙漏為基線,但堆疊不同數(shù)量的沙漏模組進行實驗。表3的第1/3行和第4/6行顯示,所提出的HSLE模型始終優(yōu)于分別堆疊4/8個沙漏模塊的基線,這也驗證了所提出的顯式應(yīng)用結(jié)構(gòu)約束優(yōu)于通過堆疊多個沙漏隱式合并它。
與手工設(shè)計的結(jié)構(gòu)約束方法的比較
手動結(jié)構(gòu)約束的瓶頸在于難以應(yīng)用于大量地標,因此手動設(shè)計的結(jié)構(gòu)約束(如[9])不適合300W數(shù)據(jù)集(每幅圖像注釋68個地標)。對于每個圖像有19個標記的AFLW全數(shù)據(jù)集,本文重新實現(xiàn)了一個手動設(shè)計的19個節(jié)點的雙向樹結(jié)構(gòu)模型(圖7(b))參見[9]。表3和圖7(a)中的第2/3行和第5/6行顯示,本文提出的模型始終優(yōu)于手動設(shè)計的結(jié)構(gòu)約束,這表明用本文的方法自動學習的層次結(jié)構(gòu)約束不僅更適合于大量的地標,但也比手工設(shè)計的約束更加健壯。
不同設(shè)置的HSLE
在AFLW數(shù)據(jù)集上,本文使用不同的x-(n,t,m)設(shè)置(4/5/8/11/14-(6,4,3))對本文的模型進行了評估,結(jié)果表明本文的模型總是改善了基線。模型的復(fù)雜度隨著x,n的增加和t的減小而增加,參數(shù)大小的不斷增加并不能進一步改善性能,如表3第7~11行所示。此外,為了描述68個地標的結(jié)構(gòu)約束,當應(yīng)用17–(6,4,3)設(shè)置時,參數(shù)的數(shù)目增加了35802,有221個子結(jié)構(gòu)用于傳遞信息。如果應(yīng)用完全連接的圖或所謂的1-(68,3,3)設(shè)置,參數(shù)的數(shù)量將增加8118792,并且將是50116子結(jié)構(gòu),用于傳遞信息。為了在準確性和效率之間進行權(quán)衡,本文主要報告了19個地標的5-(6,4,3)設(shè)置和68個地標的17-(6,4,3)設(shè)置的結(jié)果。
6. Conclusion
本文提出了一種用于學習魯棒性人臉地標檢測的層次結(jié)構(gòu)地標集成(HSLE)模型。由于HSLE傳播的結(jié)構(gòu)約束,通過端到端的方式與HSLE聯(lián)合訓(xùn)練,使得基線面部地標檢測器具有更強的魯棒性。通過大量的實驗驗證了該方法的有效性,表明通過學習層次結(jié)構(gòu)約束,人臉標志點檢測可以更加穩(wěn)健。與基線模型相比,該模型在Intel i7-9700K(3.60GHz×8)CPU和Nvidia GeForce GTX 1080Ti(11GB)GPU上的運行時間增加了約36ms。
總結(jié)
以上是生活随笔為你收集整理的人脸标记检测:ICCV2019论文解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人脸照片自动生成游戏角色_ICCV201
- 下一篇: 高精地图中导航标识识别