ACL 2020 | 消除文本分类问题中歧视现象的研究
?PaperWeekly 原創(chuàng) ·?作者|張冠華、白冰
研究機(jī)構(gòu)|哈工大/騰訊
研究方向|自然語(yǔ)言處理
導(dǎo)語(yǔ)
文本分類問(wèn)題是自然語(yǔ)言處理中的一個(gè)基礎(chǔ)問(wèn)題,旨在根據(jù)語(yǔ)義預(yù)測(cè)一句話的標(biāo)簽。常見的文本分類任務(wù)包括情感檢測(cè)、意圖分析等。最近,學(xué)術(shù)界發(fā)現(xiàn)文本分類數(shù)據(jù)集常常包含對(duì)某些群體的歧視,這是因?yàn)檫@些數(shù)據(jù)集反映了人類社會(huì)中普遍存在的偏見。
機(jī)器學(xué)習(xí)在這些有歧視的數(shù)據(jù)集中訓(xùn)練時(shí),也會(huì)學(xué)習(xí)到這些歧視的模式,從而產(chǎn)生歧視性的預(yù)測(cè)結(jié)果。比如,模型可能會(huì)僅僅因?yàn)榫渥又械摹芭恕币辉~就把“我是一個(gè)女人”判斷為侮辱性語(yǔ)句。
本文探究了文本分類中歧視問(wèn)題的形式化定義,并提出了一種基于樣本加權(quán)的無(wú)需額外數(shù)據(jù)的模型去歧視方法。實(shí)驗(yàn)結(jié)果表明我們的方法可以有效緩解模型預(yù)測(cè)過(guò)程中對(duì)弱勢(shì)群體的歧視問(wèn)題。本文章已經(jīng)被 ACL 2020 錄取。
論文標(biāo)題:Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting
論文鏈接:https://arxiv.org/abs/2004.14088
代碼鏈接:https://github.com/ghzhang233/Non-Discrimination-Learning-for-Text-Classification
問(wèn)題背景
文本分類問(wèn)題是自然語(yǔ)言處理中的一個(gè)基礎(chǔ)問(wèn)題,旨在根據(jù)語(yǔ)義預(yù)測(cè)一句話的標(biāo)簽。常見的文本分類任務(wù)包括情感檢測(cè)、意圖分析等。
最近,學(xué)術(shù)界發(fā)現(xiàn)文本分類數(shù)據(jù)集常常包含對(duì)某些群體的歧視, 這是因?yàn)檫@些數(shù)據(jù)集反映了人類社會(huì)中普遍存在的偏見。具體地,這種歧視表現(xiàn)為在數(shù)據(jù)集中某些群體對(duì)特定標(biāo)簽有明顯的傾向性。比如在 Toxicity Comments 數(shù)據(jù)集中,如下表所示,我們可以看出一些群體詞如 “gay” 與標(biāo)簽 “Abusive” 有著很強(qiáng)的關(guān)聯(lián)。
機(jī)器學(xué)習(xí)在這些有歧視的數(shù)據(jù)集中訓(xùn)練時(shí),也會(huì)學(xué)習(xí)到這些歧視的模式,從而產(chǎn)生歧視性的預(yù)測(cè)結(jié)果。比如,模型可能會(huì)僅僅因?yàn)榫渥又械摹芭恕币辉~就把“我是一個(gè)女人”判斷為侮辱性語(yǔ)句。如果這樣有歧視的模型被應(yīng)用在實(shí)際生活場(chǎng)景中,不難想象其會(huì)對(duì)一些弱勢(shì)群體造成傷害。
問(wèn)題定義
我們首先給出無(wú)歧視分布和無(wú)歧視模型的定義。在本文中,我們使用 來(lái)表示句子, 來(lái)表示標(biāo)簽, 來(lái)表示句子中的包含的群體信息, 來(lái)表示模型的預(yù)測(cè)。
2.1 無(wú)歧視分布
如前面所說(shuō)的,數(shù)據(jù)集中的歧視現(xiàn)象是人類社會(huì)中的偏見的映射,我們稱有偏數(shù)據(jù)集中的分布為有歧視分布。
現(xiàn)實(shí)世界是有歧視的,對(duì)應(yīng)地,我們可以假設(shè)存在一個(gè)無(wú)歧視的理想世界,而現(xiàn)實(shí)世界則是理想世界的一個(gè)歧視性的映射。進(jìn)一步地,我們可以假設(shè)存在一個(gè)無(wú)歧視分布反映了理想世界,而有歧視分布是從無(wú)歧視分布中遵循著歧視性的規(guī)則抽樣得到的。
我們用 表示無(wú)歧視分布中的概率, 表示有歧視分布中的概率,則無(wú)歧視分布顯然應(yīng)該滿足群體信息與標(biāo)簽無(wú)關(guān),即:
2.2 無(wú)歧視模型
對(duì)于文本分類模型,我們使用?Equalized Odds?來(lái)定義模型的歧視行為。具體地,無(wú)歧視模型應(yīng)該滿足在給定標(biāo)簽 的情況下,模型的預(yù)測(cè) 應(yīng)該與群體信息 無(wú)關(guān)。
同時(shí),我們證明當(dāng)測(cè)試集滿足群體信息 與標(biāo)簽 獨(dú)立時(shí),滿足?Equalized Odds?的模型也同時(shí)滿足另外兩個(gè)常用的無(wú)歧視模型定義,即?Demographic Parity?和?Predictive Parity。
所以,在本文中,我們定義一個(gè)無(wú)歧視的模型,當(dāng)在 的數(shù)據(jù)集中測(cè)試時(shí),應(yīng)該滿足:
去歧視方法
基于有歧視分布是從無(wú)歧視分布中遵循著歧視性的規(guī)則抽樣得到的視角,我們使用 來(lái)表示采樣決策變量,并用 表示一個(gè)樣本被從無(wú)歧視分布中采樣到有歧視分布中。即:
此外,無(wú)歧視分布還應(yīng)該滿足:
在理想情況下,如果 的取值是完全隨機(jī)的,那么采樣得到的數(shù)據(jù)應(yīng)該可以很好地反映無(wú)歧視分布。然而,由于社會(huì)偏見, 的取值并非隨機(jī)的。受到數(shù)據(jù)集中某些群體對(duì)特定標(biāo)簽有明顯的傾向性的現(xiàn)象的啟發(fā),我們假設(shè) 的取值由 和 決定。此外,我們還假設(shè),對(duì)于任意 滿足 的后驗(yàn)概率大于 0,即:
同時(shí),我們還額外假設(shè)采樣的過(guò)程不會(huì)改變?nèi)后w信息的邊緣概率分布,也就是:
我們可以證明當(dāng)群體信息完全包含在句子中時(shí),滿足一致性的學(xué)習(xí)器漸進(jìn)地不受這個(gè)假設(shè)影響。
基于以上四個(gè)假設(shè),我們證明通過(guò)對(duì)模型在訓(xùn)練的時(shí)候添加樣本權(quán)重 ,可以等價(jià)于在無(wú)歧視分布中訓(xùn)練模型。具體證明請(qǐng)見論文。
具體的算法流程圖如下:
在實(shí)踐中,我們可以基于具體情況選擇性地設(shè)置 ,比如設(shè)置 或者均勻分布等。而對(duì)于 ,我們可以使用隨機(jī)森林等分類器來(lái)進(jìn)行估計(jì)。
實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中,我們選擇 Sexist Tweets, Toxicity Comments 和 Jigsaw Toxicity 三個(gè)數(shù)據(jù)集來(lái)評(píng)估我們方法的去歧視效果。其中,Sexist 用來(lái)評(píng)估性別歧視,另外兩個(gè)用來(lái)評(píng)估群體歧視。
對(duì)于 Toxicity Comments,為了與其他工作中的結(jié)果對(duì)齊,我們使用與其一樣的 CNN 網(wǎng)絡(luò)。而對(duì)于另外兩個(gè)數(shù)據(jù)集,我們使用單層 128 維的 LSTM 模型來(lái)作為 Baseline。
此外,我們?cè)?Sexist 中與數(shù)據(jù)補(bǔ)充方法(Swap)方法進(jìn)行了比較,在 Toxicity Comments 和 Jigsaw Toxicity 中與數(shù)據(jù)補(bǔ)充方法(Supplement)進(jìn)行了比較。
為了評(píng)估模型的歧視性,參照其他工作中的做法,我們基于模板生成了 Identity Phrase Templates Test Sets(IPTTS)用來(lái)做評(píng)估模型的測(cè)試集。我們?cè)?IPTTS 中分別計(jì)算 False Positive Equality Difference(FPED)和 False Negative Equality Difference(FNED)兩個(gè)指標(biāo)來(lái)評(píng)估模型的歧視性。
這兩個(gè)指標(biāo)可以看作是對(duì) Equalized Odds 的一種松弛,FPED 和 FNED 越小,則模型中歧視越少。此外,我們還分別在原測(cè)試集與 IPTTS 中計(jì)算 AUC 來(lái)衡量模型的性能。
4.2 實(shí)驗(yàn)結(jié)果
Sexist Tweets 從表 3 中,我們可以發(fā)現(xiàn)我們的加權(quán)方法在 FPED 和 FNED 上顯著優(yōu)于 Baseline,說(shuō)明我們的模型能有效消除模型歧視。數(shù)據(jù)增強(qiáng)方法在 FPED 和 FNED 上強(qiáng)于加權(quán)方法,但是在 IPTTS AUC 上也更低,這說(shuō)明 Swap 去歧視是以犧牲模型性能為代價(jià)的。
Toxicity Comments 從表 4 中,我們可以發(fā)現(xiàn)加權(quán)方法在 FPED, FNED 和 IPTTS AUC 上均優(yōu)于 Baseline,說(shuō)明了我們方法的去歧視能力。
同時(shí),我們注意到我們的加權(quán)方法的去歧視效果甚至比數(shù)據(jù)補(bǔ)充方法還略好,而數(shù)據(jù)補(bǔ)充方法是需要針對(duì)性補(bǔ)充額外的數(shù)據(jù)的!此外,我們注意到加權(quán)方法的 Orig. AUC 與另兩種方法相差不大,說(shuō)明我們方法對(duì)模型性能損失很小。
Jigsaw Toxicity 從表 5 中,我們可以看出,與表 4 的結(jié)果相似,加權(quán)方法和數(shù)據(jù)補(bǔ)充方法在 IPTTS AUC 和 FPED 上都顯著優(yōu)于 Baseline,而加權(quán)方法與數(shù)據(jù)補(bǔ)充方法在去歧視結(jié)果上無(wú)顯著差異,表現(xiàn)出了加權(quán)方法能有效緩解數(shù)據(jù)集歧視對(duì)模型的影響。
總結(jié)
在本文中,我們分析了文本分類中的歧視問(wèn)題,給出了問(wèn)題的形式化定義,并提出了將歧視問(wèn)題轉(zhuǎn)化為采樣偏差(Selection Bias)問(wèn)題。基于這個(gè)視角,我們提出一種基于樣本加權(quán)的無(wú)需額外數(shù)據(jù)的去歧視方法。
實(shí)驗(yàn)表明,我們的方法在對(duì)模型性能不造成較大損失的情況下,可以有效去除模型中的歧視。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的ACL 2020 | 消除文本分类问题中歧视现象的研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 怎么区分物质的火灾危险性的类别?
- 下一篇: 三星电子芯片业务负责人全永铉罕见就 Q3