日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读

發布時間:2025/3/21 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

題目:Cascade EF-GAN:局部聚焦漸進式面部表情編輯
時間:2020.3
作者:Rongliang Wu, Gongjie Zhang, Shijian Lu, and Tao Chen
CVPR 2020

Abstract

  • 目前面部表情編輯存在的問題:生成性對抗網絡(GAN)的最新進展表明,面部表情編輯有了顯著的改進。然而,當前的方法仍然容易在表達密集型區域周圍產生偽影和模糊,并且在處理大間隙表達轉換(例如從憤怒到大笑的轉換)時,經常引入不希望的重疊偽影
  • 本文提出的方案:
    (1)為了解決這些局限性,我們提出了Cascade Expression Focal GAN(Cascade EF-GAN),這是一種新的網絡,可以使用局部表情焦點進行漸進式面部表情編輯。局部聚焦的引入使Cascade EF-GAN能夠更好地保留眼睛、鼻子和嘴巴周圍與身份相關的特征和細節,這進一步有助于減少生成的面部圖像中的偽影和模糊
    (2)此外,設計了一種創新的級聯變換策略,將大型面部表情變換分解為級聯中的多個小型表情變換,這有助于抑制重疊偽影,并在處理大間隙表情變換時產生更逼真的編輯效果
    (3)在兩個公開的面部表情數據集上進行的大量實驗表明,我們提出的級聯EF-GAN在面部表情編輯方面取得了優異的性能。
  • 1.Introduction

  • 面部表情編輯發展現狀:面部表情打開了一扇了解人們內部情緒的窗口,傳達了微妙的意圖,關于面部表情的自動識別有很多研究工作。在數字媒體的今天和時代,面部表情編輯即將給定面部圖像的表情轉換為目標表情,而不丟失身份屬性,有可能應用于不同的領域,比如說攝影技術、電影產業、娛樂業等。它越來越受到學術界和工業界的關注。
  • 現有的面部表情編輯方法存在的不足:受生成性對抗網絡(GANs)最近的成功啟發,報告的幾項研究工作已經取得了非常令人印象深刻的面部表情編輯結果。另一方面,現有的方法仍然面臨一些約束。首先,現有的方法往往會產生不連貫的偽影和/或模糊,尤其是在那些表情豐富的區域,如眼睛、鼻子和嘴巴周圍。第二,當源面部表情與目標面部表情存在較大差距時,現有方法往往會產生重疊偽影,例如從憤怒到大笑的轉換 。
  • 現有的面部表情編輯方法只將圖像作為整體處理,沒有特別關注與局部身份相關的特征(眼/鼻子/嘴巴):面部表情編輯的任務需要維護個人身份。作為人類,識別面部圖像的自然方法是特別注意眼睛、鼻子和嘴巴,這主要是因為這些區域包含豐富的身份相關信息。另一方面,幾乎所有基于GAN的面部表情編輯方法都只是將輸入的面部圖像作為一個整體進行處理,而沒有特別注意與局部身份相關的特征,這可能是大多數現有方法在眼睛、鼻子和嘴巴周圍產生不連貫偽影和模糊的一個主要原因。
  • 此外,據我們所知,所有現有的基于GANs的面部表情編輯方法都對目標表情執行一步轉換。另一方面,由于網絡容量的限制,在處理大間隙變換時,單步變換通常會產生重疊偽影(在面部表情變化較大的區域周圍)。由于面部表情的變化本質上是連續的,如果網絡將其分解為許多小的變換,那么大的間隙變換應該更好地完成。
  • 在這篇論文中,我們提出了一種新的級聯表達局部GAN(級聯EF-GAN),用于局部聚焦的漸進式面部表情編輯。級聯EF-GAN由級聯中幾個相同的EF-GAN模塊組成,這些模塊以漸進的方式執行面部表情編輯。具體而言,設計了一種創新的級聯變換策略,將大型面部表情變換分解為多個小型面部表情變換,并循序漸進的執行面部表情變換。這種漸進式面部表情轉換有助于抑制重疊偽影,并在處理大間隙面部表情轉換時實現更健壯、更逼真的表情編輯。此外,每個EF-GAN模塊都包含許多預定義的局部焦點,分別捕捉眼睛、鼻子和嘴巴周圍與身份相關的特征。EF-GAN具有與身份相關的詳細特征,能夠生成具有更少偽影的連貫面部表情圖像。我們提出的級聯EF-GAN的結果如圖1所示。
  • 本文的貢獻
    (1)首先,我們確定了局部焦點在面部表情編輯中的重要性,并提出了一種新的EF-GAN,它可以捕獲具有多個局部焦點的身份相關特征,并有效地減少編輯偽影和模糊。
    (2)其次,我們提出了一個創新的漸進式面部表情編輯級聯設計。級聯設計在處理較大間隙的表情轉化時,在抑制重疊偽影方面是穩健而有效的。(重疊偽影指的是原始表達式和目標表達式在輸出中混合的偽影)。
    (3)第三,大量實驗表明,Cascade EF-GAN在定量和定性上都實現了出色的面部表情編輯。
  • 2.Related Work

  • 生成性對抗網絡:生成性對抗網是一種強大的生成模型,可以同時訓練生成器生成逼真的假圖像,并訓練鑒別器區分真假圖像。一個活躍的研究主題是條件GANs,它包含條件信息去控制生成圖像。此外,CycleGAN采用cycle-consistency(循環一致性)損失,并在保留關鍵屬性的情況下實現圖像到圖像的轉換。GANs在不同的計算機視覺任務中表現出了強大的能力,如自然圖像合成、圖像風格轉換、超分辨率、圖像修復、面部屬性編輯、面部圖像合成等,GAN生成的圖像也被應用于不同的計算機視覺任務。我們的Cascade EF-GAN設計用于執行面部表情編輯,使用條件變量控制目標表情,并使用循環一致性以保留身份信息。
  • 面部表情編輯:面部表情編輯很有挑戰性,因為它需要對輸入的面部圖像進行高水平的理解,并事先了解人類表情。與只考慮特定面部區域外觀修改的一般面部屬性編輯相比,面部表情編輯是一項更具挑戰性的任務,因為它通常涉及較大的幾何變化,需要同時修改多個面部組件。近年來,隨著GANs的流行,已經取得了非常令人印象深刻的進展。例如,G2-GAN和GCGAN采用面部地標作為幾何先驗,以控制生成的面部表情的強度,其中ground-truth圖像對于提取幾何信息至關重要。ExprGAN引入了一個表達式控制器來控制生成表情的強度,但它需要一個預訓練的人臉識別器來保存身份信息。StarGAN可以使用單一模型跨域翻譯圖像,并通過最小化循環損失來保留身份特征,但它只能生成離散表達式。GANimation采用動作單元作為表情標簽,可以在連續域中生成表情。它還包括注意機制來更好地保存身份信息。然而,它往往會產生偽影和模糊,無法很好地處理大間隙表情轉換。
  • 我們提出的級聯EF-GAN方法沒有像現有的基于GAN的方法那樣在整個人臉圖像上生成表情,而是將局部焦點放在眼睛、鼻子和嘴的區域上,有助于抑制偽影和清晰的保留細節。此外,級聯策略以漸進的方式編輯表情,在處理非常不同的表情轉換時能夠有效地抑制重疊的偽影。
  • 3.Proposed Methods

    圖2顯示了我們提出的級聯EF-GAN的總體框架。如圖2所示,級聯EF-GAN由級聯中的多個EF-GAN組成,它們以漸進的方式執行表情編輯。每個EF-GAN共享相同的體系結構,其中包括一個表情轉換器和一個細化器。具體來說,每個EF-GAN模塊中都包含了幾個預定義的局部焦點分支,以便更好地保存眼睛、鼻子和嘴巴周圍與身份相關的特征和細節。更多細節將在接下來的小節中討論。

    3.1EF-GAN with Attention-Driven Local Focuses

  • EF-GAN中的生成模型由一個表情轉換器和一個細化器組成,前者執行帶有局部焦點的表情編輯,后者融合表情轉換器的輸出并細化最終編輯。
  • 表情轉換器。圖2顯示了我們的表情轉換器的架構。我們的級聯EF-GAN說明:工作流顯示在左側,每個EF-GAN的詳細信息顯示在放大區域。表情編輯分為3個步驟,由每個EF-GAN逐步處理。EF-GAN由一個表情轉換器和一個細化器組成:前者生成整個人臉圖像和三個局部人臉區域的初始編輯,后者融合初始編輯并細化,生成表情圖像作為最終輸出
  • 現有的方法的不足:現有的方法使用單個全局分支處理面部圖像,雖然卷積核在所有空間位置共享,但每個面部區域都有不同的身份相關特征。因此,僅僅用一組卷積核將人臉圖像作為一個整體進行處理,不足以捕獲每個人臉區域周圍與身份相關的細節
  • 我們的表情轉換器的改進:包含三個額外的局部分支,分別對眼睛、鼻子和嘴巴周圍的局部區域進行預定義聚焦。通過在全局和局部分支中處理面部圖像來應對現有方法的不足,其中全局分支捕獲全局面部結構,局部分支關注更詳細的面部特征。
  • 具體而言,表情轉換器將面部圖像和目標表情標簽作為輸入。與GANimation類似,我們采用了面部動作編碼系統(FACS),該系統將表情編碼為動作單元(AUs),可以使用開源OpenFace提取動作單元。我們采用連續的AUs強度作為AUs標簽來監督編輯過程。給定源面部表情圖像,通過裁剪相應的局部圖像塊,首先將局部焦點應用于眼睛、鼻子和嘴巴區域。OpenFace還獲取了每個局部焦點的地標。然后,將全局人臉圖像及其局部貼片反饋給相應的表情轉換器的分支,用于表情編輯。注意:所有分支共享相似的網絡架構,但不共享權重。
  • 我們還將注意力引入到全局和局部分支,以更好地捕捉細節和抑制偽影。視覺注意的使用已經在GANimation中進行了研究,在GANimation中,注意力被設計用來引導網絡專注于轉換表情相關區域。另一方面,在單個全局圖像中應用注意通常會引入模糊的注意反應,如圖3的第4列所示。這是因為全局注意力往往集中在最顯著的變化上,例如圖3中的口腔區域,而眼睛和鼻子周圍的細微變化沒有得到很好的關注。如第3欄所示,對上述局部分支的獨有關注有助于在局部區域獲得更清晰的回應。
  • 具體來說,每個分支輸出顏色特征圖M_C和注意圖M_A。對于原始輸入圖像I_in,每個分支的初始輸出通過以下方式生成:

    ? 表示按元素的乘法。這種策略大大簡化了學習過程,因為網絡不需要在人臉圖像統計的約束下直接輸出初始結果。
    表情轉換器只生成初始表情編輯,如圖2所示。具體來說,全局分支捕獲全局面部結構和特征,但由于缺少局部細節,會在局部區域周圍生成模糊和偽影。局部分支更好地保留了局部細節,但它們忽略了整個面部表情的大局。因此,這兩種分支的輸出被發送到細化器進行融合和進一步改進。
  • 細化器:細化器負責融合表情轉換器不同分支的輸出,生成最終的表情編輯。如圖2所示,三個局部分支的輸出首先根據它們在面部圖像中的各自位置縫合成單個圖像。縫合的圖像然后與全局分支的輸出連接,并饋送到細化器以生成最終的表情編輯。
  • 3.2Cascade Facial Expression Transformation

  • 級聯框架。給定輸入的面部圖像,上述EF-GAN在大多數情況下都能夠生成高保真的表情編輯。另一方面,我們的研究表明,EF-GAN在處理大間隙表情轉換時,往往會在表情變化較大的區域周圍產生重疊偽影。我們將大間隙表情轉換稱為那些涉及大量外觀和幾何修改以編輯表情的轉換,例如從憤怒到大笑的轉換。為了解決這個限制,我們提出了級聯EF-GAN,它以漸進的方式執行表情編輯。具體而言,級聯EF-GAN將大間隙表情轉換分解為多個小間隙表情轉換,并在級聯中執行大間隙表情轉換。它可以更好地保存面部結構和與身份相關的特征,以及強大地處理大間隙面部變換。
  • 如圖2所示,通過將多個EF-GAN級聯在一起來實現級聯表情編輯,其中來自前一個EF-GAN的表情圖像被饋送到下一個EF-GAN作為進一步編輯的輸入。根據經驗,我們使用了3個EF-GAN,圖4顯示了所提出的級聯EF-GAN的中間和最終表情編輯。如圖4所示,具有挑戰性的大間隙表情編輯是通過多個步驟逐步完成的,從而平滑地生成目標表情的真實面部圖像。
  • 中間監督:實施漸進式編輯的另一個問題是如何在每個中間步驟中包含監督信息。利用輸入表情和目標表情的AU標簽,直接的方法是通過線性插值生成中間AU。然而,這種插值的AU可能不存在于自然AU的流形上,并導致奇怪的合成。我們通過訓練插值器來生成中間AU來解決這個問題。具體來說,我們首先通過線性插值生成偽中間目標,并提取偽目標和輸入表情的原始AUs標簽之間的殘差。原始的AUs標簽和殘差隨后被饋送到插值器,以產生中間AUs,從而為中間表情提供監督。此外,還訓練了一個鑒別器來最大化真實值和插值后的AUs之間的Wasserstein距離,而訓練插值器來最小化它們之間的距離,從而使插值后的AU無法與真實樣本區分開來。注:所有EF-GAN使用相同的AUs插值器。
  • 3.3Learning the Model

  • 損失函數訓練EF-GAN的損失函數包含五項:
    (1)提高合成面部表情圖像的照片真實性的對抗損失,使其與真實樣本無法區分;
    (2)條件表情損失,以確保生成的面部表情圖像符合提供的目標AUs標簽;
    (3)內容損失,是為了保存圖像內容的身份信息和一致性。
    (4)注意損失,鼓勵注意模塊生成稀疏注意圖,并注意真正需要修改的區域.
    (5)用于約束插值AUs標簽的插值損失具有期望的語義意義,并且駐留在自然AUs的流形上。總體目標函數表示為:

    其中λ1、λ2、λ3和λ4是超參數。在級聯EF-GAN中,總損失是每個EF-GAN的等權損失之和。
  • 訓練方案
    (1)如果我們直接級聯多個EF-GAN模塊并從頭開始訓練,很難獲得良好的表情編輯。我們推測,這在很大程度上是由于早期EF-GAN模塊產生的噪聲面部圖像。以這種有噪聲的人臉圖像作為輸入,級聯EF-GAN的后期很容易受到影響,并產生退化的編輯。此外,不希望的編輯會累積,這使得網絡參數難以優化。
    (2)我們設計了一個簡單而有效的方案來解決這個問題。具體來說,我們首先訓練一個EF-GAN執行一步面部表情轉換。然后,我們使用訓練好的EF-GAN的權重初始化級聯中的所有后續EF-GAN,并端到端微調所有網絡參數。通過這種訓練方案,級聯中的每個EF-GAN模塊都將具有良好的初始化,因此中間的面部表情圖像將有助于后期學習有意義的表情轉換信息。
  • 4.Experiments

    4.1Datasets

  • 通過Radboud Faces數據集(RaFD)和情緒混合面部表情數據集(CFEED)對級聯EF-GAN進行評估。RaFD由8040張從不同角度收集的表情圖像組成。我們使用的面部圖像由90度相機捕獲,生成1608張面部表情圖像。CFEED包含從230名參與者收集的5060張混合表情圖像。我們隨機抽樣90%用于訓練,其余用于測試。
  • 在我們的實驗中,我們將圖像裁剪成128×128個補丁,補丁的中心是人臉。三個局部補丁(即眼睛、鼻子和嘴巴的補丁)的大小分別固定為40×92、40×48和40×60。每個補丁的中心是所有訓練樣本中相應關鍵點的平均位置。
  • 4.2Qualitative Experimental Results

  • 級聯EF-GAN是在前一節中描述的兩個公開可用的面部表情數據集上進行評估的。圖5顯示了定性實驗結果,其中第1-5列中的圖像來自RaFD數據集,第6-10列中的圖像來自CFEED數據集。每個列都包括一項表情編輯任務,以及通過最先進的方法——StarGAN和GANimation進行的面部表情編輯,以及我們提出的Cascade EF-GAN。
  • 如圖5所示,最先進的方法容易在眼睛、鼻子和嘴巴周圍產生模糊和偽影,甚至會破壞面部表情。我們的Cascade EF-GAN生成的面部表情更逼真,模糊和偽影更少,生成的圖像也更清晰。更好的合成在很大程度上歸功于包含了注意力驅動的局部聚焦,這有助于更好地保留相應面部區域中與身份相關的特征和細節。此外,最先進的方法在處理大間隙表情轉換時往往會產生重疊的偽影。我們的級聯EF-GAN反而有效地抑制了這種重疊的偽影,這主要是因為我們的級聯設計執行了類似人類的漸進式表情轉換,而不是一步執行。補充材料中提供了更多結果。
  • 4.3Quantitative Experimental Results

  • 表情分類準確性:我們遵循StarGAN和ExprGAN的評估方法進行定量評估。具體來說,我們首先在訓練集上訓練不同的表情編輯模型,然后在同一個看不見的測試集上執行表情編輯。然后在不同的表情識別任務中對生成的圖像進行評估。分類精度越高,表示表情編輯越準確、越真實。
  • 設計了兩個分類任務來評估生成圖像的質量:1)使用原始訓練圖像訓練表情分類器,并應用分類器對不同編輯方法生成的表情圖像進行分類;2) 通過結合自然和生成的表情圖像來訓練分類器,從而對原始測試集圖像進行分類。第一個任務評估生成的圖像是否位于自然表情的流形中,第二個任務評估生成的圖像是否有助于訓練更好的分類器。
  • 表1顯示了RaFD和CFEED上的表情分類精度(僅針對CFEED評估了七個主要表情)。具體來說,R意味著用原始訓練集圖像訓練分類器,然后將其應用于識別測試集圖像的表情。G表示使用與R相同的分類器來識別生成圖像的表情。R+G是將真實圖像和不同方法生成的圖像相結合來訓練分類器,然后應用它們來識別測試集圖像的表情。如表所示,我們的cascade EF-GAN在第一個任務中達到了最高的準確率,RaFD和CFEED的準確率分別為89.38%和85.81%,顯示了它在生成更逼真的表情圖像方面的優勢。此外,它還可以幫助訓練更精確的表情分類器,當我們生成的圖像與分類器訓練中的真實圖像相結合時,RaFD和CFEED的準確度分別提高了1.46%和1.02%。作為比較,StarGAN和GANimation 生成的圖像往往會降低分類,可能是因為生成的圖像中存在偽影和模糊。
  • PSNR和FID:我們還使用峰值信噪比(PSNR)和弗里切特起始距離(FID)指標評估生成圖像的質量。PSNR是通過合成表情和相同身份的對應表情計算的,而FID分數是在真實人臉的預訓練初始模型和合成人臉的最終平均池特征之間計算的。如表2所示,我們提出的級聯EF-GAN在RaFD數據集上的PSNR和FID測量高出了1.01/3.19,在CFEED上高出了0.91/1.92。
  • 4.4Ablation Study

  • 我們在RaFD數據集上進行消融實驗,以研究我們提出的局部聚焦和級聯設計的貢獻。訓練了幾個模型,包括:
    (1)基線,其中僅采用全局注意的 GANimation ;
    (2)基線+局部聚焦(即EF-GAN),將局部焦點分支納入基線;
    (3)基線+級聯,將漸進編輯(帶有3個EF-GAN模塊)引入到基線;
    (4)級聯EF-GAN,包括漸進編輯和局部聚焦,如圖2所示。
  • 圖6顯示了定性結果。每列代表一個表情編輯任務,以及上述模型進行的相應編輯。很明顯,基線往往會丟失眼睛和嘴巴周圍的細節,導致模糊、偽影,甚至腐蝕。對于許多示例圖像,生成的表情與目標表情也沒有很好地對齊。基線+局部聚焦可以大大減少偽影和腐蝕,并生成更清晰、更鮮明的表情圖像。基線+級聯中包含級聯策略有助于更好地維護身份特征和面部結構,生成的表情也能更好地與目標表情對齊。這在很大程度上是因為級聯設計通過將大間隙變化分解為更小的步驟來減輕大間隙變化的復雜性。最后,包括級聯設計和局部聚焦的級聯EF-GAN能夠生成干凈、清晰的面部表情,這些表情與目標表情和輸入身份一致,明顯優于所有其他模型。這表明,提出的局部聚焦和級聯編輯策略是相輔相成的。
  • 我們還進行了定量實驗,以評估級聯EF-GAN中的每個提出的組件。表3顯示了實驗結果。定量實驗結果進一步驗證了所提出的局部聚焦和漸進轉換策略的有效性。
  • 4.5Discussion

    連續表情編輯:我們的級聯EF-GAN可以很容易地適應生成連續表情。給定源和目標AUs,可以使用插值器導出不同階段的中間AUs。因此,可以使用中間AUs和源圖像導出中間階段的連續表情。圖7顯示了級聯EF-GAN的連續編輯。

    野生圖像上的面部表情編輯:野生圖像上的表情編輯更具挑戰性,因為圖像是在復雜的背景和不受控制的燈光下拍攝的。我們的級聯EF-GAN可以適應處理野生圖像,如圖8所示,其中級聯EF-GAN首先在RaFD和CFEED圖像上進行預訓練,然后使用來自AffectNet的野生表情圖像進行微調。如圖8所示,級聯EF-GAN可以成功地變換表情,同時保持和表情無關的信息不變。

    5.Conclusion

    (1)本文提出了一種新的用于真實人臉表情編輯的級聯表情局部GAN(Cascade EF-GAN)。EF-GAN的設計結合了眼睛、鼻子和嘴巴三個局部重點,以更好地保存與身份相關的特征和細節。這種與身份相關的特征減少了模型的身份不確定性,從而得到更清晰的面部表情圖像。
    (2)此外,所提出的級聯EF-GAN以漸進的方式執行表情編輯,將大間隙表情變換更改分解為多個小間隙表情變換。因此,它在大間隙面部表情的真實變換中更具魯棒性。
    (3)在兩個公開的有效的面部表情數據集上進行的大量實驗表明,與最先進的技術相比,所提出的級聯EF-GAN實現了更好的表情編輯。我們預計Cascade EF-GAN將激發新的見解,并在不久的將來吸引更多人對更好的面部表情編輯感興趣。

    總結

    以上是生活随笔為你收集整理的Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。