你的模型够可靠么?关键词掩码的模型可靠性提升方法探索
?PaperWeekly 原創(chuàng) ·?作者|張琨
學校|中國科學技術大學博士生
研究方向|自然語言處理
論文標題:
MASKER: Masked Keyword Regularization for Reliable Text Classification
論文鏈接:
https://arxiv.org/abs/2012.09392
代碼鏈接:
https://github.com/alinlab/MASKER
動機
文本分類是自然語言處理中一個基礎但應用廣泛的任務,而伴隨著預訓練模型的被提出,模型在文本分類任務上的效果也在不斷被提升。雖然現(xiàn)有的預訓練模型確實對文本分類的提升做出了突出貢獻,但是利用文本分類模型進行微調(diào)存在一個可靠性問題。
模型會更過的依賴那些關鍵詞,從而忽略了周圍的上下文信息,模型會更過的依賴那些關鍵詞,從而忽略了周圍的上下文信息,試集中的數(shù)據(jù)分布是不同的,可能在訓練集中某些關鍵詞和某一類緊密關聯(lián),但在測試集中不是這樣的,那么過渡依賴關鍵詞的話,模型就會做出錯誤的判斷。
除此之外,還有一個跨領域泛化的問題,在源域有效的關鍵詞可能在目標域就不存在,這樣模型在目標域的泛化就存在很大問題了。
比如下圖,如果原域中 apple 指的就是蘋果公司,那么當出現(xiàn) OOD 的 apple 這個詞的時候,模型應該能判斷出來這已經(jīng)不是在相同的域了,這時的 apple 就可能不再是關鍵詞了。為了解決這個問題,本文在預訓練模型的基礎上提出了一個改進方案,主要用于增加模型的可靠性,尤其是在微調(diào)階段的可靠性。
方法
在這里主要分為兩個部分,關鍵詞的選擇和通過掩碼關鍵詞的約束。
2.1 關鍵詞選擇
已經(jīng)有一些工作,通過認真選擇數(shù)據(jù)或者設計特定的結構,從而減輕或消除數(shù)據(jù)中的這種有偏(單靠一些關鍵詞判斷正確的類別)對模型的影響。但這些方法都需要有偏的監(jiān)督信號,因此存在一定的局限性,本文就選擇使用一種非監(jiān)督的方法來選擇關鍵詞,思路很簡單:
基于頻率:即通過統(tǒng)計整個文檔中的詞頻實現(xiàn)對關鍵詞的選擇,這里使用的是 TF-IDF,主要通過以下公式計算:
需要說明的是該方法是不依賴于模型的,針對任何模型都是使用的,同時本文選擇的 TF-IDF 是不依賴類別的,是直接選擇出整個數(shù)據(jù)中的關鍵詞。優(yōu)點是簡單易行,缺點是無法反應詞對最終結果的貢獻。
基于注意力得分:這部分相對來說就要復雜一些了,即使用模型中的注意力得分對數(shù)據(jù)中的詞進行選擇,這里為了體現(xiàn)詞對結果的影響使用的就是原始的 loss 來訓練模型,然后找到模型更關注那些關鍵詞,具體選擇的注意力分數(shù)計算如下:
通過這兩種方式得到具體的關鍵詞之后,作者又提出了兩種利用掩碼關鍵詞進行約束的任務。
2.2 掩碼關鍵詞約束
掩碼關鍵詞的重構:
在該任務中,作者首先按照一定概率選擇一些關鍵詞,將這些關鍵詞進行掩碼,然后將遮蓋住關鍵詞的文檔送給模型,模型需要對被遮蓋的內(nèi)容進行重構,該過程可以由下圖表示:
對應的損失可以由以下公式表示:
作者也選擇了利用遮蓋后的文檔直接進行分類,但結果是非常差的,通過這樣的實驗證明了對遮蓋內(nèi)容的重構是必須的。
掩碼之后的熵正則:
這個任務主要是對上下文內(nèi)容進行遮蓋,具體可以理解為:正常情況下,我們希望通過讓模型更多的關注上下文,從而真正理解語義,而不是靠一些簡單的關鍵詞進行分類預測。
因此模型需要充分理解上下文。當我們把上下文遮蓋住之后,模型應該無法準確理解語義,無法做出判斷,因此輸出的概率分布應該是均勻概率分布。基于這樣一個想法,就設計了這個任務。該過程可以表示為:
對應的損失可以由如下公式表示:
整個模型的損失:
有了以上兩個任務之后,整個模型的損失可以表述為:
實驗
在實驗中,作者更多的關注模型是否能夠判斷出 OOD 的情況以及在 cross-domain 情況下模型的表現(xiàn)。具體而言,本文以一些預訓練模型為 baseline(BERT, RoBERTa,ALBERT),然后對比模型在原始情況以及考慮了本文提出的方法的情況下在這兩個任務上的表現(xiàn),部分實驗結果如圖:
同時,作者也展示了使用本方法后,模型學習到的文檔 embedding 在可視化下的表現(xiàn),具體如圖:
從這些實驗結果,都證實了本文提出的方法的有效性,而且 t-sne 圖的結果還是很明顯的。
總結
本文不再是直接思考一種新的做文本匹配的模型,而是深入思考了模型在作出判斷時應該是什么情況,從可靠性的角度進行了深入分析,實驗方法也不是很難,但特別有意思,而且這里邊也有一些對抗的思想,值得認真學習。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的你的模型够可靠么?关键词掩码的模型可靠性提升方法探索的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 吊坠刻忍字寓意好吗?
- 下一篇: Facebook开源数据高效图像Tran