SemEval-2022 Task 6 有意讽刺检测
YNU-HPCC at SemEval-2022 Task 6: Transformer-based Model for Intended Sarcasm Detection in English and Arabic
本篇隨便講下論文,這是我們在SemEval-2022 Task6的相關(guān)工作,本篇論文在Task6榜單上取得了 12/43 (21/32), 11/22, and 3/16 (8/13) 的排名。
官方的排行榜
論文
Github
任務(wù)介紹
官方的主頁:semeval2022-isarcasmeval
其實就是三個在英語、阿拉伯語數(shù)據(jù)集下的分類任務(wù):
- Task A:很簡單的二分類任務(wù),給定句子,判斷是否具有諷刺意義
- Task B:與A類似,不過是多標簽分類任務(wù),且只有英語數(shù)據(jù)
- Task C:給定兩個句子,一個是有諷刺的句子,一個是同義但無諷刺的轉(zhuǎn)述,判斷諷刺句子的位置。是個句子對分類任務(wù)。
模型介紹
沒做多大的創(chuàng)新,正如主辦方所言,
我們使用的和其他參賽者并無多大區(qū)別,都是BERT及其變種,預(yù)訓(xùn)練+Fine-tuning的兩段式,差異主要在數(shù)據(jù)處理上。結(jié)構(gòu)如下圖所示,
主要難點及解決方案
難點:
數(shù)據(jù)高度不平衡,體現(xiàn)在Task B中,Task B的標簽數(shù)據(jù)分布如下所示:
標簽數(shù)量差異十分巨大,且除此之外還有大量的非諷刺標簽存在。
解決方案:
當(dāng)時考慮過獨立訓(xùn)練每個標簽,缺點是喪失了標簽之間的關(guān)聯(lián)性(雖然我也不知道他們之間的關(guān)聯(lián)性是啥),相對來說在訓(xùn)練每個獨立二分類器的時候,還是比較容易選取相對平衡的訓(xùn)練集。然而這個方案對于標簽太少的(如understatement)依舊沒啥辦法。
也考慮過數(shù)據(jù)增強,然而數(shù)據(jù)增強可能會損失句子的諷刺意義,擔(dān)心引入太多臟數(shù)據(jù),所以沒有采用。
最后效果比較好的,還是采用了Label-Power(就是一個分類器來輸出多個標簽)方案。訓(xùn)練數(shù)據(jù)選取上只用了一小部分非諷刺標簽,避免模型過度關(guān)注非諷刺標簽。另外就是在損失函數(shù)上使用了WBCE(帶有權(quán)重的BCE),來增大模型對數(shù)量少的標簽的關(guān)注度。WBCE以及權(quán)重計算方法如下所示:
Task C的訓(xùn)練集構(gòu)造
這個也講講吧,這個任務(wù)是最平衡的了,果然我處理不平衡不如別人,只在這個任務(wù)上取得了還不錯的排名。
我們設(shè)有諷刺的文本為tweet,無諷刺的轉(zhuǎn)述為rephrase,無非就兩種可能的句子對,(tweet,rephrase)或(rephrase,tweet)。
數(shù)據(jù)集中有tweet列和rephrase列,那就很好辦了,在模型介紹里我們看到了Task C輸入部分的樣子。
顯然,我們需要兩個句子來輸入,tweet、rephrase作為Sentence A、B(B、A),然后給對應(yīng)的標簽0(1),即
- (tweet,rephrase) as 0
- (rephrase,tweet) as 1
結(jié)果
實驗細節(jié)和結(jié)果分析不想講太多,論文和代碼都有。
官方給的主要評估指標:
- SubTask A: F1-score for the sarcastic class.
- SubTask B: Macro-F1 score.
- SubTask C: Accuracy.
我們嘗試的各種方法結(jié)果如下所示,加粗的是我提交上去的結(jié)果,不一定是我們實驗中最好的方案(他只記最后一次提交的結(jié)果,我還以為是最好的,,,,坑啊)
總結(jié)
以上是生活随笔為你收集整理的SemEval-2022 Task 6 有意讽刺检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 固定U盘盘符原理
- 下一篇: MATLAB图像模糊复原