数据有偏差,照样能学对!20年前就有这么强的算法了?
文 | 白鹡鸰給小鐵比了個(gè)心
編 | 小軼
背景
“每個(gè)人都依賴自己的知識(shí)和認(rèn)知,同時(shí)又為之束縛,還將此稱為現(xiàn)實(shí);但知識(shí)和認(rèn)識(shí)是非常曖昧的東西,現(xiàn)實(shí)也許不過(guò)是鏡花水月——人們都是活在偏見(jiàn)之中的,你不這樣認(rèn)為嗎?這雙眼睛,又能看多遠(yuǎn)呢?”
機(jī)器學(xué)習(xí),作為模仿人類思維方法進(jìn)行建模的過(guò)程,雖然從數(shù)據(jù)中抽取模型的水平還不如人類,但是在獲取偏見(jiàn)(bias)的方面,已經(jīng)青出于藍(lán)而勝于藍(lán)了。關(guān)于機(jī)器學(xué)習(xí)模型偏見(jiàn)產(chǎn)生的機(jī)理,谷歌花了59頁(yè),從自然語(yǔ)言、圖像處理和生物醫(yī)療領(lǐng)域進(jìn)行了詳細(xì)的分析。結(jié)論是,不論數(shù)據(jù)集多大,必然存在采樣偏差,因此模型或多或少總會(huì)學(xué)到假特征,擴(kuò)大數(shù)據(jù)集不是修正模型偏見(jiàn)的終極解決方案。遺憾的是,谷歌并沒(méi)在文中提出有創(chuàng)見(jiàn)性的改進(jìn)意見(jiàn),只是建議大家多做測(cè)試。
不過(guò),谷歌沒(méi)搞大新聞也沒(méi)關(guān)系。Hugging Face表示:即使不去顯式地定位模型的偏差,即使只有有偏的數(shù)據(jù)集,他們照樣有辦法煉出魯棒性高的模型,能從容應(yīng)對(duì)與訓(xùn)練測(cè)試集分布不同的真實(shí)場(chǎng)景。這是怎么做到的呢?下面就讓我們一起來(lái)看看吧~
論文題目:
Learning from Others' Mistakes: Avoiding Dataset Biases Without Modeling Them
論文鏈接:
https://arxiv.org/abs/2012.01300
Arxiv訪問(wèn)慢的小伙伴也可以在 【夕小瑤的賣(mài)萌屋】訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞 【0125】 下載論文PDF~
核心思想
“盲人摸象”是現(xiàn)在很多模型的生動(dòng)寫(xiě)照:大象(真實(shí)場(chǎng)景中數(shù)據(jù)量)體積龐大,盲人僅憑雙手難以觸及全貌(采樣無(wú)法覆蓋所有場(chǎng)景)。即使一群盲人摸同一頭象,每個(gè)人也只知道部分內(nèi)容,容易以偏概全(假特征)。如果讓每個(gè)盲人獨(dú)立判斷自己摸到的是什么,就會(huì)把非決定性特征視作決定性特征,從而出現(xiàn)不同的預(yù)測(cè)錯(cuò)誤。
但是,如果允許盲人們交流討論,他們就可以分析各自判斷錯(cuò)誤的原因。以此為依據(jù)去調(diào)整每個(gè)特征導(dǎo)向正確結(jié)果的概率,甚至歸納出新的隱藏特征。這篇論文的工作,就是在探究 “盲人”(弱學(xué)習(xí)器,weak learners)之間如何進(jìn)行有效地“討論”(Products of Experts),并分析每個(gè)弱學(xué)習(xí)器至少需要掌握多少信息,才能對(duì)正確的預(yù)測(cè)結(jié)果有所幫助。
方法
從一個(gè)“古老”的方法說(shuō)起
看到Product of Experts (PoE)的第一眼,白鹡鸰是懵逼的。這個(gè)名字很自然地令人聯(lián)想到專家系統(tǒng)的某種變體。然而,這都2021年了,莫非是要文藝復(fù)興的節(jié)奏?仔細(xì)一查,PoE的作用確實(shí)是總結(jié)多個(gè)模型包含的知識(shí),基于特定算法和總結(jié)的先驗(yàn)知識(shí)進(jìn)行預(yù)測(cè),妥妥的一個(gè)專家系統(tǒng),在2002年由Hinton大神提出 [1]。顧名思義,PoE在基于個(gè)專家模型構(gòu)建最終的預(yù)測(cè)模型時(shí),公式中充斥著累乘:
其中是可能出現(xiàn)的事件,是模型中所有的參數(shù),是模型預(yù)測(cè)事件出現(xiàn)的概率,是事件的狀態(tài)空間。當(dāng)狀態(tài)空間是連續(xù)的時(shí)候,需要將分母上的累加改為積分。這個(gè)公式符號(hào)有些復(fù)雜,但實(shí)質(zhì)就是在先驗(yàn)信息是聯(lián)合分布的情況下,求一個(gè)事件發(fā)生的概率。
這個(gè)方法的優(yōu)點(diǎn)在于:即使每個(gè)專家模型都只關(guān)心特定的事件,而對(duì)其他情況預(yù)測(cè)表現(xiàn)不佳,綜合下來(lái),PoE對(duì)事件的預(yù)測(cè)都能達(dá)到一個(gè)較好的結(jié)果。
具體應(yīng)用過(guò)程
在Hugging Face提出的方法中,需要一個(gè)弱學(xué)習(xí)器 和一個(gè)主學(xué)習(xí)器。記和輸出的logits vector(即未經(jīng)歸一化的概率分布)分別為和。數(shù)據(jù)集和標(biāo)簽記作,最終預(yù)測(cè)結(jié)果有類。
首先,用標(biāo)準(zhǔn)化交叉熵作為損失函數(shù),預(yù)訓(xùn)練。然后挑選出預(yù)測(cè)錯(cuò)誤的樣本集。
接著,將作為輸入,得到兩個(gè)學(xué)習(xí)器的輸出,構(gòu)造合并后的logits vector:
則顯然有(因?yàn)楣降姆帜付际浅?shù))
換言之,
(其中是向量中對(duì)應(yīng)元素相乘的運(yùn)算符號(hào))
再把上式右邊再歸一化處理一下,就有
(這里是指將向量的每一維累加)
如果將 看作PoE中子模型的預(yù)測(cè)輸出,可以發(fā)現(xiàn)看似簡(jiǎn)單的構(gòu)造中其實(shí)蘊(yùn)涵著PoE的思想。感興趣的朋友們可以參考Hugging Face的原文和[2]自行推導(dǎo)。
當(dāng)用邏輯回歸進(jìn)行二元分類任務(wù)時(shí),和可以視作標(biāo)量(即預(yù)測(cè)為正樣本的概率), 上式中的softmax也退化為sigmoid。則針對(duì)單個(gè)正樣本的損失函數(shù)為
此時(shí)凍結(jié)的參數(shù),只更新的參數(shù)。損失函數(shù)是上述PoE loss與普通交叉熵?fù)p失之和,只用來(lái)更新。訓(xùn)練完成后,即為最終的預(yù)測(cè)模型。這樣就達(dá)到了令向“學(xué)習(xí)” 的效果。但與知識(shí)蒸餾不同之處在于,這里的“學(xué)習(xí)”并非以“模仿”為目的,而是從的錯(cuò)誤中進(jìn)行學(xué)習(xí)。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果
這種去偏差方法無(wú)疑設(shè)計(jì)得很巧妙:一方面,它省去了顯性定位模型偏差的功夫,節(jié)約大量人力資源;另一方面,損失函數(shù)的計(jì)算較為簡(jiǎn)便,節(jié)約大量計(jì)算資源。不過(guò),再怎么吹,沒(méi)看到結(jié)果之前,都是空的。
首先是在自然語(yǔ)言推斷(Natural Language Inference)任務(wù)上的驗(yàn)證。研究者們?cè)贛NLI數(shù)據(jù)集上,采用基于TinyBERT的弱學(xué)習(xí)器和基于BERT的主學(xué)習(xí)器進(jìn)行訓(xùn)練。模型的任務(wù)是基于前提(premise statement),將假設(shè)(hypothesis statement)分類為真(entailment),假(contradiction)或不確定(neurtral)。訓(xùn)練完成后,不僅在MNLI數(shù)據(jù)集上檢測(cè)分類的準(zhǔn)確性,還在與MNLI數(shù)據(jù)分布不同的HANS上檢驗(yàn)了模型,結(jié)果如圖1所示。在heuristic-non-entailment的樣本上,PoE將主學(xué)習(xí)器的正確率提高了將近24%;但是在與in-distribution accuracy上,預(yù)測(cè)效果不升反降,這可能是因?yàn)槲恼绿岢龅哪P瓦^(guò)于關(guān)注弱學(xué)習(xí)器犯的錯(cuò)誤,而沒(méi)有關(guān)注in-distribution prediction的優(yōu)化導(dǎo)致的。
然后是在QA(Question Answering)任務(wù)上的驗(yàn)證。學(xué)習(xí)器和上文設(shè)置一樣,用SQuAD數(shù)據(jù)集訓(xùn)練,在Adversarial SQuAD數(shù)據(jù)集上檢驗(yàn)。結(jié)果如圖2所示。這一任務(wù)上,PoE的采用對(duì)預(yù)測(cè)器魯棒性的優(yōu)化十分顯著。
上述測(cè)試以外,文章還探討了弱學(xué)習(xí)器的參數(shù)量和主學(xué)習(xí)器的魯棒性的關(guān)聯(lián)。由圖三可以看出,弱學(xué)習(xí)器的正確率不會(huì)隨著參數(shù)量的增加獲得很大提升。而主學(xué)習(xí)器在in-distribution數(shù)據(jù)上性能顯著下降,在out-distribution數(shù)據(jù)上則性能提升。
總結(jié)和感想
除了對(duì)模型本身的理解,寫(xiě)這篇文章更深層的動(dòng)機(jī)是想說(shuō)明:處理數(shù)據(jù)不均衡/模型有偏正在成為機(jī)器學(xué)習(xí)中共同的研究熱點(diǎn)。其實(shí)在任何基于統(tǒng)計(jì)原理的建模方法上,這都是一個(gè)無(wú)法回避的挑戰(zhàn),只不過(guò)說(shuō)之前因?yàn)閿?shù)據(jù)量不夠、基本模型不夠完善所以熱度沒(méi)有起來(lái)。而現(xiàn)在時(shí)機(jī)已經(jīng)逐漸成熟,2021年,恐怕這個(gè)難點(diǎn)上大新聞會(huì)此起彼伏,真是令人期待。
萌屋作者:白鹡鸰
白鹡鸰(jí líng)是一種候鳥(niǎo),天性決定了會(huì)橫跨很多領(lǐng)域。已在上海交大棲息四年,進(jìn)入了名為博士的換毛期。目前以圖像語(yǔ)義為食,但私下也對(duì)自然語(yǔ)言很感興趣,喜歡在賣(mài)萌屋輕松不失嚴(yán)謹(jǐn)?shù)姆諊锢藒~形~~飛~~翔~~
知乎ID也是白鹡鸰,歡迎造訪。
作品推薦:
NLP太卷,我去研究蛋白質(zhì)了~
谷歌40人發(fā)表59頁(yè)長(zhǎng)文:為何真實(shí)場(chǎng)景中ML模型表現(xiàn)不好?
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣(mài)萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
?
[1] Hinton, Geoffrey E. "Training products of experts by minimizing contrastive divergence." Neural computation 14.8 (2002): 1771-1800.
[2] Mahabadi, Rabeeh Karimi, Yonatan Belinkov, and James Henderson. “End-to-End Bias Mitigation by Modelling Biases in Corpora.” ACL,(2020).?https://arxiv.org/abs/1909.06321
[3] Utama, Prasetya Ajie, Nafise Sadat Moosavi, and Iryna Gurevych. "Towards debiasing NLU models from unknown biases." arXiv preprint arXiv:2009.12303 (2020). https://arxiv.org/abs/2009.12303
[4] He, He, Sheng Zha, and Haohan Wang. "Unlearn dataset bias in natural language inference by fitting the residual." arXiv preprint arXiv:1908.10763 (2019). https://arxiv.org/abs/1908.10763
總結(jié)
以上是生活随笔為你收集整理的数据有偏差,照样能学对!20年前就有这么强的算法了?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何评价一个推荐系统的好坏?
- 下一篇: 新分类!全总结!最新Awesome-SL