人脸真伪验证与识别:ICCV2019论文解析
人臉真偽驗證與識別:ICCV2019論文解析
Face Forensics++: Learning to Detect
Manipulated Facial Images
論文鏈接:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Rossler_FaceForensics_Learning_to_Detect_Manipulated_Facial_Images_ICCV_2019_paper.pdf
摘要
合成圖像生成和處理技術的迅速發展,使人們對其對社會的影響產生了極大的關注。充其量,這會導致人們對數字內容失去信任,但通過傳播虛假信息或虛假新聞,可能會造成進一步的傷害。本文探討了最先進的圖像處理技術的現實性,以及自動或由人類檢測它們的困難。 為了規范檢測方法的評估,本文提出了一個自動的面部操作檢測基準。特別是,基準是基于DeepFakes[1]、Face2Face[56]、FaceSwap[2]和NeuralTextures[54]作為隨機壓縮級別和大小的面部操作的突出代表。基準測試是公開可用的,它包含一個隱藏的測試集以及一個包含超過180萬個操作圖像的數據庫。這個數據集比可比的、公開的、偽造的數據集大一個數量級以上。基于這些數據,本文對數據驅動的偽造檢測器進行了深入的分析。本文表明,使用額外的領域特定知識可以將偽造檢測提高到前所未有的準確度,即使在強壓縮的情況下也是如此,并且明顯優于人類觀察者。
- Introduction
目前的面部操作方法可分為兩類:面部表情操作和面部身份操作(見圖2)。最突出的面部表情操作技術之一是Thies等人[56]的方法,稱為面到面。它只使用商品硬件就能實時地將一個人的面部表情傳送給另一個人。后續的工作,如“合成奧巴馬”[52]能夠根據音頻輸入序列對人的面部進行動畫制作。
本文的論文做出了以下貢獻:
?一個用于在隨機壓縮下進行標準化比較的面部操作檢測的自動基準,包括人類基準, ?一個由180多萬張來自1000個視頻,包含原始(即真實)源和目標地面真相,以實現監督學習,
?廣泛評估各種情況下最先進的手工制作和學習的偽造探測器,
?最先進的偽造檢測方法,專門針對面部操作。
- Related Work
Face Manipulation Methods
近年來,人們提出了幾種基于深度學習的人臉圖像合成方法。Lu等人。[45]概述。生成性對抗網絡(GANs)用于應用面部老化[6],生成新視角[33],或改變面部屬性,如膚色[44]。深度特征插值[59]在改變人臉屬性(如年齡、胡子、微笑等)方面顯示了令人印象深刻的結果。屬性插值的類似結果由Fader網絡實現[41]。這些基于深度學習的圖像合成技術大多存在圖像分辨率低的問題。最近,Karras等人。[36]利用GANs的漸進生長提高了圖像質量,產生了高質量的人臉合成。
Multimedia Forensics
其他一些工作明確提到檢測與人臉相關的操作,例如區分計算機生成的人臉和自然人臉[21、14、49]、變形的人臉[48]、人臉拼接[23、22]、人臉交換[62、37],還有深贗品[4,42,32]。對于面部操作檢測,一些方法利用合成過程中產生的特定偽影,例如眨眼[42],或顏色、紋理和形狀提示[23、22]。其他的工作更一般,并提出了一個深度網絡訓練,以捕捉由低級和/或高級特征引起的微妙不一致[48,62,37,4,32]。這些方法顯示了令人印象深刻的結果,然而健壯性問題通常仍然沒有得到解決,盡管它們對于實際應用至關重要。例如,壓縮和調整大小之類的操作因清洗數據中的操作痕跡而聞名。在現實場景中,當圖像和視頻上傳到社交媒體(這是法醫分析最重要的應用領域之一)時,這些基本操作是標準的。為此,本文的數據集被設計用來覆蓋這些現實場景,即來自野外的視頻,以不同的質量級別進行操作和壓縮(見第3節)。這樣一個龐大而多樣的數據集的可用性可以幫助研究人員對他們的方法進行基準測試,并為面部圖像開發更好的偽造檢測器。
Forensic Analysis Datasets
鑒證分析數據集:經典的鑒證數據集是在非常可控的條件下,通過大量的人工操作創建的,以分離像相機偽影一樣的數據的特定屬性。雖然有人提出了一些數據集,其中包括圖像處理,但只有少數數據集也涉及到視頻片段的重要情況。例如,MICC F2000是一個圖像拷貝移動操作數據集,由700個來自不同來源的偽造圖像組成[5]。第一個IEEE圖像取證挑戰數據集包括1176個偽造圖像;包含90個來自Web的真實操作案例的Wild Web數據集[61]和包含220個偽造圖像的真實篡改數據集[40]。Zhou等人[62]提出了一個2010年FaceSwap和SwapMe生成圖像的數據庫。最近,Korshunov和Marcel[39]為43名受試者構建了一個由多個視頻創建的620個深度贗品視頻的數據集。美國國家標準與技術研究所(NIST)發布了最廣泛的通用圖像處理數據集,其中包括約5萬張偽造圖像(包括本地和全球操作)和約500個偽造視頻[31]。相反,本文構建了一個包含1個以上的數據庫。4000個假視頻中的800萬張圖片——比現有數據集高出一個數量級。本文在第四節評估了如此龐大的訓練語料庫的重要性。
- Large-Scale Facial Forgery Database
本文的一個核心貢獻是本文的FaceForensics++數據集擴展了初步的FaceForensics數據集 [50]。這個新的大規模數據集使本文能夠訓練一個最先進的偽造檢測器,以監督的方式進行面部圖像處理(見第4節)。為此,本文利用四種最先進的自動面部操作方法,這些方法應用于從互聯網上下載的1000個原始視頻(統計數據見圖3)。為了模擬真實的場景,本文選擇了在野外收集視頻,特別是從YouTube上。然而,早期對所有操縱方法的實驗表明,為了防止操縱方法失敗或產生強偽影,目標臉必須接近正面。因此,本文對生成的剪輯執行手動篩選,以確保高質量的視頻選擇,并避免視頻與面部遮擋。本文選擇了1000個包含509914幅圖像的視頻序列作為原始數據。為了生成一個大規模的操作數據庫,本文采用了最先進的視頻編輯方法來完全自動工作。在下面的段落中,本文將簡要介紹這些方法。對于本文的數據集,本文選擇了兩種基于計算機圖形的方法(Face2Face和FaceSwap)和兩種基于學習的方法(DeepFakes和NeuralTextures)。所有四種方法都需要源和目標參與者視頻對作為輸入。每種方法的最終輸出是由生成的圖像組成的視頻。除了操作輸出外,本文還計算了指示像素是否被修改的地面真值掩碼,可以用來訓練偽造定位方法。有關更多信息和超參數,請參閱補充材料。
FaceSwap
FaceSwap是一種基于圖形的方法,用于將人臉區域從源視頻傳輸到目標視頻。基于稀疏檢測到的人臉標志,提取人臉區域。利用這些標志,該方法使用混合圖形建立了一個三維模板模型。該模型利用輸入圖像的紋理,通過最小化投影形狀和局部地標之間的差異,實現對目標圖像的反投影。最后,將渲染模型與圖像融合,并進行顏色校正。本文對所有源幀和目標幀對執行這些步驟,直到一個視頻結束。該實現在計算上是輕量級的,并且可以在CPU上高效地運行。
Deepfakes
Deepfakes一詞已經廣泛地成為基于深度學習的面部置換的同義詞,但它也是通過在線論壇傳播的一種特殊操作方法的名稱。為了區分這些,本文在下面的文章中用深度贗品來表示這種方法。有各種各樣的DeepFakes公共實現可用,最顯著的是FakeApp[3]和faceswap github[1]。將目標序列中的面替換為在源視頻或圖像集合中觀察到的面。該方法基于兩個具有共享編碼器的自動編碼器,分別訓練用于重建源人臉和目標人臉的訓練圖像。人臉檢測器用于裁剪和對齊圖像。為了產生一幅假圖像,將訓練好的源人臉編解碼器應用到目標人臉上。然后使用Poisson圖像編輯將自動編碼器輸出與圖像的其余部分混合[47]。對于本文的數據集,本文使用faceswap github實現。本文用一個完全自動化的數據加載器替換手動的訓練數據選擇,從而稍微修改了實現。本文使用默認參數來訓練視頻對模型。由于這些模型的訓練非常耗時,本文還將模型作為數據集的一部分發布。這有助于通過不同的后處理對這些人產生額外的操作。
Face2Face
Face2Face[56]是一個面部再現系統,它將源視頻的表達式傳輸到目標視頻,同時保持目標人的身份。最初的實現是基于兩個視頻輸入流,使用手動關鍵幀選擇。這些幀用于生成一個密集的人臉重建,可用于在不同的光照和表情下重新合成人臉。為了處理本文的視頻數據庫,本文采用Face2Face方法來完全自動創建重生成操作。本文在預處理過程中處理每個視頻;在這里,本文使用第一幀以獲得臨時的面部身份(即3D模型),并在剩余幀上跟蹤表達式。為了選擇該方法所需的關鍵幀,本文自動選擇具有面的最左和最右角度的幀。基于這種身份重建,本文跟蹤整個視頻,以計算每幀的表達式、剛性姿勢和照明參數,就像在最初的Face2Face實現中一樣。本文通過將每個幀的源表達式參數(即76個混合形狀系數)傳輸到目標視頻來生成再現視頻輸出。有關再制造過程的更多細節,請參閱原始文件[56]。
NeuralTextures
Thies等人
[54]以面部重建為例,說明基于神經紋理的繪制方法。它利用原始視頻數據學習目標人的神經紋理,包括一個渲染網絡。這是訓練與光度重建損失與對抗性損失相結合。在本文的實現中,本文應用了Pix2Pix【35】中使用的基于補丁的GAN損耗。Neuratextures方法依賴于列車和測試期間使用的跟蹤幾何結構。本文使用Face2Face的跟蹤模塊來生成這些信息。本文只修改與嘴區域相對應的面部表情,即眼睛區域保持不變(否則渲染網絡將需要類似于深視頻肖像的眼睛運動的條件輸入[38])。
Postprocessing-Video Quality
為了給被操縱的視頻創建一個真實的設置,本文生成不同質量級別的輸出視頻,類似于許多社交網絡的視頻處理。由于原始視頻很少在互聯網上找到,本文使用H.264編解碼器壓縮視頻,這被社交網絡或視頻共享網站廣泛使用。為了生成高質量的視頻,本文使用HQ(恒定速率量化參數等于23)表示的視覺上幾乎無損的光壓縮。低質量視頻(LQ)使用40的量化產生。
- Forgery Detection
本文將偽造檢測問題歸結為被操縱視頻的每幀二進制分類問題。以下各節顯示了手動和自動偽造檢測的結果。對于所有實驗,本文將數據集分成固定的訓練、驗證和測試集,分別由720、140和140個視頻組成。使用測試集中的視頻報告所有評估。對于所有的圖表,本文在補充材料中列出了確切的數字。
4.1. Forgery Detection of Human Observers
為了評估人類在偽造檢測任務中的表現,本文對204名參與者進行了一項用戶研究,參與者主要是計算機科學大學的學生。這形成了自動偽造檢測方法的基線。 Layout of the
User Study
在簡單介紹了二進制任務之后,用戶被要求對從本文的測試集中隨機選擇的圖像進行分類。所選圖像在圖像質量和操作方法上都有所不同;本文使用50:50的原始圖像和偽圖像分割。由于檢查圖像的時間量可能很重要,為了模擬用戶在社交媒體上每個圖像只花費有限時間的場景,本文隨機設置了2、4或6秒的時間限制,然后隱藏圖像。之后,用戶被問到顯示的圖像是“真實的”還是“假的”。為了確保用戶在檢查上花費可用的時間,在圖像顯示后而不是在觀察期間詢問問題。本文將研究設計為每個參與者只需幾分鐘,每個參與者展示60張圖片,這就產生了12240個人類決策的集合。
請注意,用戶研究包含了所有四種操作方法的假圖像和原始圖像。在這種情況下,面部和神經組織結構尤其難以被人類觀察者發現,因為它們沒有引入強烈的語義變化,與面部置換方法相比,只引入了細微的視覺偽影。神經紋理似乎特別難以檢測,因為人類的檢測精度低于隨機概率,而且只會在具有挑戰性的低質量任務中增加。
4.2. Automatic Forgery Detection Methods
本文的偽造檢測管道如圖5所示。由于本文的目標是檢測面部圖像的偽造,因此本文使用了可以從輸入序列中提取的額外域特定信息。為此,本文使用了Thies等人[56]最先進的人臉跟蹤方法。跟蹤視頻中的面部并提取圖像的面部區域。本文使用保守的crop(擴大1.3倍)
圍繞被跟蹤面的中心,包圍重建的面。領域知識的整合 與使用整個圖像作為輸入的樸素方法相比,改進了偽造檢測器的總體性能(參見第4.2.2節)。本文使用不同的最新分類方法評估了本文方法的各種變體。本文正在考慮在醫學界使用基于學習的方法進行通用操作檢測[9,16]、計算機生成的與自然圖像檢測[49]和人臉篡改檢測[4]。此外,本文還表明基于ExceptionNet[13]的分類在檢測假貨方面優于所有其他變體。
4.2.1 Detection based on Steganalysis Features
本文根據Fridrich等人[26]的方法,從隱寫分析特征中評估檢測。采用手工制作的特征。這些特征在高通圖像上沿水平和垂直方向共出現在4個像素圖案上,總特征長度為162。然后利用這些特征訓練線性支持向量機(SVM)分類器。這項技術是第一次IEEE圖像鑒證挑戰賽的制勝方法[15]。本文提供一個128×128的中心裁剪作為方法的輸入。雖然手工制作的方法在原始圖像上的精確度大大超過了人類,但它很難處理壓縮,這導致低質量視頻的精確度低于人類的性能(見圖6和表1)。
4.2.2 Detection based on Learned Features
為了從學習到的特征中進行檢測,本文評估了文獻中已知的五種網絡架構,以解決分類任務:
(1) Cozzolino等人
[16] 將前一節手工制作的隱寫分析功能投射到基于CNN的網絡中。本文在本文的大規模數據集上精確地調整這個網絡。
(2)
本文使用本文的數據集訓練Bayar和Stamm[9]提出的卷積神經網絡,該網絡使用一個約束卷積層,然后是兩個卷積層、兩個最大池和三個完全連接層。約束卷積層被專門設計來抑制圖像的高層次內容。與前面的方法類似,本文使用中心128×128裁剪作為輸入。
(3) Rahmouni等人
[49]采用不同的CNN架構,具有計算四個統計數據(平均值、方差、最大值和最小值)的全局池層。本文認為Stats-2L網絡性能最好。 (4)
MesoInception-4[4]是一個基于CNN的網絡,靈感來源于InceptionNet[53],用于檢測視頻中的人臉篡改。該網絡有兩個初始模塊和兩個經典卷積層與最大池層交錯。之后,有兩個完全連接的層。在經典交叉熵損失的基礎上,提出了真標簽和預測標簽的均方誤差。本文將人臉圖像的大小調整為256×256,這是網絡的輸入。 (5)
XceptionNet[13]是一種基于殘差連接可分離卷積的傳統CNN。本文通過用兩個輸出替換最終的完全連接層來將其轉移到本文的任務中。其他層用ImageNet權重初始化。為了建立新插入的完全連接層,本文將所有權值乘以最終層,并對網絡進行3個階段的預訓練。在這一步之后,本文對網絡進行了15個階段的訓練,并根據驗證精度選擇了性能最佳的模型。有關本文的培訓和超參數的詳細說明,請參閱補充文件。
Comparison of our Forgery Detection Variants
圖6示出了使用在所有四種操作方法上分別評估的所有網絡架構以及在不同視頻質量水平下的二進制偽造檢測任務的結果。所有的方法都能在原始輸入數據上獲得很高的性能。壓縮視頻的性能下降,特別是手工制作的功能和淺層CNN架構[9,16]。神經網絡能夠更好地處理這些情況,ExceptionNet能夠在弱壓縮上取得令人信服的結果,同時在低質量圖像上保持合理的性能,因為它得益于ImageNet上的預訓練以及更大的網絡容量。為了將用戶研究的結果與自動檢測器的性能進行比較,本文還測試了包含所有操作方法的圖像的數據集上的檢測變量。圖7和表1顯示了完整數據集上的結果。在這里,本文的自動探測器在很大程度上優于人類的性能(參見圖4)。本文還評估了在完整圖像上操作的樸素偽造檢測器(調整為ExceptionNet輸入),而不是使用面部跟蹤信息(見圖7,最右邊的列)。由于缺乏特定領域的信息,ExceptionNet分類程序在這種情況下的準確度明顯較低。總而言之,域特定信息與ExceptionNet分類相結合顯示了每次測試中的最佳性能。本文使用這個網絡來進一步了解訓練語料大小的影響及其區分不同操作方法的能力。
Forgery Detection of GAN-based methods
實驗表明,所有的檢測方法在基于GAN的神經提取方法上都達到了較低的檢測精度。neuraltexture為每一種操作訓練一個獨特的模型,這將導致可能的偽影的更高的變化。盡管DeepFakes也在為每次操作訓練一個模型,但它使用了一個固定的后處理管道,類似于基于計算機的操作方法,因此具有一致的工件。
Evaluation of the Training Corpus Size
圖8顯示了訓練語料大小的重要性。為此,本文分別在三個視頻質量級別上訓練了具有不同訓練語料大小的ExceptionNet分類器。總體性能隨著訓練圖像數量的增加而增加,這對于低質量視頻片段尤其重要,如圖底部所示。
- Benchmark
除了本文的大規模操作數據庫,本文還發布了一個有競爭力的面部偽造檢測基準。為此,本文收集了1000個額外的視頻,并以與第3節中四種操作方法相似的方式操作其中的一個子集。由于上傳的視頻(例如,到社交網絡)將以各種方式進行后處理,因此本文多次隱藏所有選定的視頻(例如,通過未知的重新調整大小、壓縮方法和比特率),以確保真實條件。此處理直接應用于原始視頻。最后,在視覺檢測的基礎上,從每個視頻中手動選擇一個具有挑戰性的幀。具體來說,本文收集了一組1000張圖片,每張圖片都是從操作方法或原始鏡頭中隨機拍攝的。請注意,本文不一定有一個等分的原始和假圖像,也不一定有一個等分使用的操作方法。地面真值標簽隱藏在主機服務器上,用于評估提交模型的分類精度。自動基準允許一個提交者每兩周提交一次,以防止過度提交(類似于現有基準[18])。作為基準,本文在基準上評估本文以前訓練過的模型的低質量版本,并分別報告每種檢測方法的數量(見表2)。除了全圖像異常網絡外,本文還將提出的人臉區域預提取方法作為輸入。分類模型的相對性能與本文的數據庫測試集相似(見表1)。但是,由于基準場景偏離了訓練數據庫,模型的整體性能較低,特別是對于原始圖像的檢測精度;主要的變化是隨機質量水平以及測試過程中可能出現的跟蹤誤差。由于本文提出的方法依賴于人臉檢測,因此本文在跟蹤失敗的情況下,將假作為默認值進行預測。該基準已經向社會公開,本文希望它能導致后續工作的標準化比較。
- Discussion & Conclusion
雖然目前最先進的面部圖像處理方法顯示出驚人的視覺效果,但本文證明,它們可以被訓練的偽造檢測器檢測到。尤其令人鼓舞的是,基于學習的方法也可以解決低質量視頻的挑戰性問題,在這種方法中,人類和手工制作的功能表現出困難。為了利用領域特定知識訓練檢測器,本文引入了一個新的人工人臉視頻數據集,其數量超過了所有現有的公開的法醫數據集一個數量級。在本文中,本文關注壓縮對最新操作方法可檢測性的影響,提出了后續工作的標準化基準。所有的圖像數據、經過訓練的模型以及本文的基準都是公開的,并且已經被其他研究人員使用。特別是,轉移學習在法醫學界具有很高的興趣。隨著新的操縱方法的出現,必須開發出能夠在幾乎沒有訓練數據的情況下檢測出假貨的方法。本文的數據庫已經用于這個法醫學轉移學習任務,其中一個源操作域的知識轉移到另一個目標域,如Cozzolino等人[17]所示。本文希望數據集和基準成為數字媒體取證領域未來研究的墊腳石,特別是關注面部偽造。
總結
以上是生活随笔為你收集整理的人脸真伪验证与识别:ICCV2019论文解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人体姿态和形状估计的视频推理:CVPR2
- 下一篇: 点云配准的端到端深度神经网络:ICCV2