日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

WSDM Cup 2019自然语言推理任务获奖解题思路

發(fā)布時(shí)間:2024/7/5 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 WSDM Cup 2019自然语言推理任务获奖解题思路 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

WSDM(Web Search and Data Mining,讀音為Wisdom)是業(yè)界公認(rèn)的高質(zhì)量學(xué)術(shù)會(huì)議,注重前沿技術(shù)在工業(yè)界的落地應(yīng)用,與SIGIR一起被稱為信息檢索領(lǐng)域的Top2。

剛剛在墨爾本結(jié)束的第12屆WSDM大會(huì)傳來一個(gè)好消息,由美團(tuán)搜索與NLP部NLP中心的劉帥朋、劉碩和任磊三位同學(xué)組成的Travel團(tuán)隊(duì),在WSDM Cup 2019大賽 “真假新聞?wù)鐒e任務(wù)” 中獲得了第二名的好成績。隊(duì)長劉帥朋受邀于2月15日代表團(tuán)隊(duì)在會(huì)上作口頭技術(shù)報(bào)告,向全球同行展示了來自美團(tuán)點(diǎn)評的解決方案。本文將詳細(xì)介紹他們本次獲獎(jiǎng)的解決方案。

1. 背景

信息技術(shù)的飛速發(fā)展,催生了數(shù)據(jù)量的爆炸式增長。技術(shù)的進(jìn)步也使得了人們獲取信息的方式變得更加便捷,然而任何技術(shù)都是一把“雙刃劍”,信息技術(shù)在為人們的學(xué)習(xí)、工作和生活提供便利的同時(shí),也對人類社會(huì)健康持續(xù)的發(fā)展帶來了一些新的威脅。目前亟需解決的一個(gè)問題,就是如何有效識(shí)別網(wǎng)絡(luò)中大量存在的“虛假新聞”。虛假新聞傳播了很多不準(zhǔn)確甚至虛構(gòu)的信息,對整個(gè)線上資訊的生態(tài)造成了很大的破壞,而且虛假新聞會(huì)對讀者造成誤導(dǎo),干擾正常的社會(huì)輿論,嚴(yán)重的危害了整個(gè)社會(huì)的安定與和諧。因此,本屆WSDM Cup的一個(gè)重要議題就是研究如何實(shí)現(xiàn)對虛假新聞的準(zhǔn)確甄別,該議題也吸引了全球眾多數(shù)據(jù)科學(xué)家的參與。

雖然美團(tuán)點(diǎn)評的主營業(yè)務(wù)與在線資訊存在一些差異,但本任務(wù)涉及的算法原理是通用的,而且在美團(tuán)業(yè)務(wù)場景中也可以有很多可以落地,例如虛假評論識(shí)別、智能客服中使用的問答技術(shù)、NLP平臺(tái)中使用的文本相似度計(jì)算技術(shù)、廣告匹配等。于是,Travel團(tuán)隊(duì)通過對任務(wù)進(jìn)行分析,將該問題轉(zhuǎn)化為NLP領(lǐng)域的“自然語言推理” (NLI)任務(wù),即判斷給定的兩段文本間的邏輯蘊(yùn)含關(guān)系。因此,基于對任務(wù)較為深入理解和平時(shí)的技術(shù)積累,他們提出了一種解決方案——一種基于多層次深度模型融合框架的虛假新聞?wù)鐒e技術(shù),該技術(shù)以最近NLP領(lǐng)域炙手可熱的BERT為基礎(chǔ)模型,并在此基礎(chǔ)上提出了一種多層次的模型集成技術(shù)。

2. 數(shù)據(jù)分析

為了客觀地衡量算法模型的效果,本屆大會(huì)組織方提供了一個(gè)大型新聞數(shù)據(jù)集,該數(shù)據(jù)集包含32萬多個(gè)訓(xùn)練樣本和8萬多個(gè)測試樣本,這些數(shù)據(jù)樣本均取材于互聯(lián)網(wǎng)上真實(shí)的數(shù)據(jù)。每個(gè)樣本包含有兩個(gè)新聞標(biāo)題組成的標(biāo)題對,其中標(biāo)題對類別標(biāo)簽包括Agreed、Disagreed、Unrelated等3種。他們的任務(wù)就是對測試樣本的標(biāo)簽類別進(jìn)行預(yù)測。

“磨刀不誤砍柴功”,在一開始,Travel團(tuán)隊(duì)并沒有急于搭建模型,而是先對數(shù)據(jù)進(jìn)行了全面的統(tǒng)計(jì)分析。他們認(rèn)為,如果能夠通過分析發(fā)現(xiàn)數(shù)據(jù)的一些特性,就會(huì)有助于后續(xù)采取針對性的策略。

首先,他們統(tǒng)計(jì)了訓(xùn)練數(shù)據(jù)中的類別分布情況,如圖1所示,Unrelated類別占比最大,接近70%;而Disagreed類占比最小,不到3%。訓(xùn)練數(shù)據(jù)存在嚴(yán)重的類別不均衡問題,如果直接用這樣的訓(xùn)練數(shù)據(jù)訓(xùn)練模型,這會(huì)導(dǎo)致模型對占比較大類的學(xué)習(xí)比較充分,而對占比較小的類別學(xué)習(xí)不充分,從而使模型向類別大的類別進(jìn)行偏移,存在較嚴(yán)重的過擬合問題。后面也會(huì)介紹他們針對該問題提出的對應(yīng)解決方案。

然后,Travel團(tuán)隊(duì)對訓(xùn)練數(shù)據(jù)的文本長度分布情況進(jìn)行了統(tǒng)計(jì),如圖2所示,不同類別的文本長度分布基本保持一致,同時(shí)絕大多數(shù)文本長度分布在20~100內(nèi)。這些統(tǒng)計(jì)信息對于后面模型調(diào)參有著很大的幫助。

3. 數(shù)據(jù)的預(yù)處理與數(shù)據(jù)增強(qiáng)

本著“數(shù)據(jù)決定模型的上限,模型優(yōu)化只是不斷地逼近這個(gè)上限”的想法,接下來,Travel團(tuán)隊(duì)對數(shù)據(jù)進(jìn)行了一系列的處理。

在數(shù)據(jù)分析時(shí),他們發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)存在一定的噪聲,如果不進(jìn)行人工干預(yù),將會(huì)影響模型的學(xué)習(xí)效果。比如新聞文本語料中簡體與繁體共存,這會(huì)加大模型的學(xué)習(xí)難度。因此,他們對數(shù)據(jù)進(jìn)行繁體轉(zhuǎn)簡體的處理。同時(shí),過濾掉了對分類沒有任何作用的停用詞,從而降低了噪聲。

此外,上文提到訓(xùn)練數(shù)據(jù)中,存在嚴(yán)重的樣本不均衡問題,如果不對該問題做針對性的處理,則會(huì)嚴(yán)重制約模型效果指標(biāo)的提升。通過對數(shù)據(jù)進(jìn)行了大量的分析后,他們提出了一個(gè)簡單有效的緩解樣本不均衡問題的方法,基于標(biāo)簽傳播的數(shù)據(jù)增強(qiáng)方法。具體方法如圖3所示:

如果標(biāo)題A與標(biāo)題B一致,而標(biāo)題A與標(biāo)題C一致,那么可以得出結(jié)論,標(biāo)題B與標(biāo)題C一致。同理,如果標(biāo)題A與標(biāo)題B一致,而標(biāo)題A與標(biāo)題D不一致,那么可以得出結(jié)論,標(biāo)題B與標(biāo)題D也不一致。此外,Travel團(tuán)隊(duì)還通過將新聞對中的兩條文本相互交換位置,來擴(kuò)充訓(xùn)練數(shù)據(jù)集。

4. 基礎(chǔ)模型

BERT是Google最新推出的基于雙向Transformer的大規(guī)模預(yù)訓(xùn)練語言模型,在11項(xiàng)NLP任務(wù)中奪得SOTA結(jié)果,引爆了整個(gè)NLP界。BERT取得成功的一個(gè)關(guān)鍵因素是Transformer的強(qiáng)大特征提取能力。Transformer可以利用Self-Attention機(jī)制實(shí)現(xiàn)快速并行訓(xùn)練,改進(jìn)了RNN最被人所詬病的“訓(xùn)練慢”的缺點(diǎn),可以高效地對海量數(shù)據(jù)進(jìn)行快速建模。同時(shí),BERT擁有多層注意力結(jié)構(gòu)(12層或24層),并且在每個(gè)層中都包含有多個(gè)“頭”(12頭或16頭)。由于模型的權(quán)重不在層與層之間共享,一個(gè)BERT模型相當(dāng)于擁有12×12=224或24×16=384種不同的注意力機(jī)制,不同層能夠提取不同層次的文本或語義特征,這可以讓BERT具有超強(qiáng)的文本表征能力。

本賽題作為典型的自然語言推理(NLI)任務(wù),需要提取新聞標(biāo)題的高級語義特征,BERT的超強(qiáng)文本表征能力正好本賽題所需要的。基于上述考慮,Travel團(tuán)隊(duì)的基礎(chǔ)模型就采用了BERT模型,其中BERT網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示:

在比賽中,Travel團(tuán)隊(duì)在增強(qiáng)后的訓(xùn)練數(shù)據(jù)上對Google預(yù)訓(xùn)練BERT模型進(jìn)行了微調(diào)(Finetune),使用了如圖5所示的方式。為了讓后面模型融合增加模型的多樣性,他們同時(shí)Finetune了中文版本和英文版本。

5. 多層次深度模型融合框架

模型融合,是指對已有的多個(gè)基模型按照一定的策略進(jìn)行集成以提升模型效果的一種技術(shù),常見的技術(shù)包括Voting、Averaging、Blending、Stacking等等。這些模型融合技術(shù)在前人的許多工作中得到了應(yīng)用并且取得了不錯(cuò)的效果,然而任何一種技術(shù)只有在適用場景下才能發(fā)揮出最好的效果,例如Voting、Averaging技術(shù)的融合策略較為簡單,一般來說效果提升不是非常大,但優(yōu)點(diǎn)是計(jì)算邏輯簡單、計(jì)算復(fù)雜度低、算法效率高;而Stacking技術(shù)融合策略較復(fù)雜,一般來說效果提升比較明顯,但缺點(diǎn)是算法計(jì)算復(fù)雜度高,對計(jì)算資源的要求較苛刻。

本任務(wù)使用的基模型為BERT,該模型雖然擁有非常強(qiáng)大的表征建模能力,但同時(shí)BERT的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,包含的參數(shù)眾多,計(jì)算復(fù)雜度很高,即使使用了專用的GPU計(jì)算資源,其訓(xùn)練速度也是比較慢的,因此這就要求在對BERT模型融合時(shí)不能直接使用Stacking這種高計(jì)算復(fù)雜度的技術(shù),因此我們選擇了Blending這種計(jì)算復(fù)雜度相對較低、融合效果相對較好的融合技術(shù)對基模型BERT做融合。

同時(shí),Travel團(tuán)隊(duì)借鑒了神經(jīng)網(wǎng)絡(luò)中網(wǎng)絡(luò)分層的設(shè)計(jì)思想來設(shè)計(jì)模型融合框架,他們想既然神經(jīng)網(wǎng)絡(luò)可以通過增加網(wǎng)絡(luò)深度來提升模型的效果,那么在模型融合中是否也可以通過增加模型融合的層數(shù)來提升模型融合的效果呢?基于這一設(shè)想,他們提出了一種多層次深度模型融合框架,該框架通過增加模型的層數(shù)進(jìn)而提升了融合的深度,最終取得了更好的融合效果。

具體來說,他們的框架包括三個(gè)層次,共進(jìn)行了兩次模型融合。第一層采用Blending策略進(jìn)行模型訓(xùn)練和預(yù)測,在具體實(shí)踐中,他們選定了25個(gè)不同的BERT模型作為基模型;第二層采用5折的Stacking策略對25個(gè)基模型進(jìn)行第一次融合,這里他們選用了支持向量機(jī)(SVM)、邏輯回歸(LR)、K近鄰(KNN)、樸素貝葉斯(NB),這些傳統(tǒng)的機(jī)器學(xué)習(xí)模型,既保留了訓(xùn)練速度快的優(yōu)點(diǎn),也保證了模型間的差異性,為后續(xù)融合提供了效率和效果的保證;第三層采用了一個(gè)線性的LR模型,進(jìn)行第二次模型融合并且生成了最終的結(jié)果。模型融合的架構(gòu)如圖6所示:

整體方案模型訓(xùn)練分為三個(gè)階段,如圖7所示:

  • 第一個(gè)階段,將訓(xùn)練數(shù)據(jù)劃分為兩部分,分別為Train Data和Val Data。Train Data用于訓(xùn)練BERT模型,用訓(xùn)練好的BERT模型分別預(yù)測Val Data和Test Data。將不同BERT模型預(yù)測的Val Data和Test Data的結(jié)果分別進(jìn)行合并,可以得到一份新的訓(xùn)練數(shù)據(jù)New Train Data和一份新的測試數(shù)據(jù)New Test Data。
  • 第二階段,將上一階段的New Train Data作為訓(xùn)練數(shù)據(jù),New Test Data作為測試數(shù)據(jù)。本階段將New Train Data均勻的劃分為5份,使用“留一法”訓(xùn)練5個(gè)SVM模型,用這5個(gè)模型分別去預(yù)測剩下的一份訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),將5份預(yù)測的訓(xùn)練數(shù)據(jù)合并,可以得到一份新的訓(xùn)練數(shù)據(jù)NewTrainingData2,將5份預(yù)測的測試數(shù)據(jù)采用均值法合并,得到一份新的測試數(shù)據(jù)NewTestData2。同樣的方法再分別訓(xùn)練LR、KNN、NB等模型。
  • 第三階段,將上一階段的NewTrainingData2作為訓(xùn)練數(shù)據(jù),NewTestData2作為測試數(shù)據(jù),重新訓(xùn)練一個(gè)LR模型,預(yù)測NewTestData2的結(jié)果作為最終的預(yù)測結(jié)果。為了防止過擬合,本階段采用5折交叉驗(yàn)證的訓(xùn)練方式。

6. 實(shí)驗(yàn)

6.1 評價(jià)指標(biāo)

為了緩解數(shù)據(jù)集中存在的類別分布不均衡問題,本任務(wù)使用帶權(quán)重的準(zhǔn)確率作為衡量模型效果的評價(jià)指標(biāo),其定義如下所示:

$$ weightedAccuracy(y,\hat{y},ω) = \frac{1}{n}\sum_{i=1}^n\frac{ω_i(y_i = \hat{y})}{\sumω_i} $$

其中,y為樣本的真實(shí)類別標(biāo)簽,$\hat{y}$為模型的預(yù)測結(jié)果,$ω_i$為數(shù)據(jù)集中第i個(gè)樣本的權(quán)重,其權(quán)重值與類別相關(guān),其中Agreed類別的權(quán)重為1/15,Disagreed類別的權(quán)重為1/5,Unrelated類別的權(quán)重為1/16。

6.2 實(shí)驗(yàn)結(jié)果

在官方測試集上,Travel團(tuán)隊(duì)的最優(yōu)單模型的準(zhǔn)確率達(dá)到0.86750,25個(gè)BERT模型簡單平均融合后準(zhǔn)確率達(dá)0.87700(+0.95PP),25個(gè)BERT模型結(jié)果以加權(quán)平均的形式融合后準(zhǔn)確率達(dá)0.87702(+0.952PP),他們提出的多層次模型融合技術(shù)準(zhǔn)確率達(dá)0.88156(+1.406PP)。實(shí)踐證明,美團(tuán)NLP中心的經(jīng)驗(yàn)融合模型在假新聞分類任務(wù)上取得了較大的效果提升。

7. 總結(jié)與展望

本文主要對解決方案中使用的關(guān)鍵技術(shù)進(jìn)行了介紹,比如數(shù)據(jù)增強(qiáng)、數(shù)據(jù)預(yù)處理、多層模型融合策略等,這些方法在實(shí)踐中證明可以有效的提升預(yù)測的準(zhǔn)確率。由于參賽時(shí)間所限,還有很多思路沒有來及嘗試,例如美團(tuán)使用的BERT預(yù)訓(xùn)練模型是基于維基百科數(shù)據(jù)訓(xùn)練而得到的,而維基百科跟新聞在語言層面也存在較大的差異,所以可以將現(xiàn)有的BERT在新聞數(shù)據(jù)上進(jìn)行持續(xù)地訓(xùn)練,從而使其能夠?qū)π侣剶?shù)據(jù)具有更好的表征能。

參考文獻(xiàn)

  • [1] Dagan, Ido, Oren Glickman, and Bernardo Magnini. 2006. The PASCAL recognising textual entailment challenge, Machine learning challenges. evaluating predictive uncertainty, visual object classification, and recognising tectual entailment. Springer, Berlin, Heidelberg, 177-190.
  • [2] Bowman S R, Angeli G, Potts C, et al. 2015. A large annotated corpus for learning natural language inference. In proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).
  • [3] Adina Williams, Nikita Nangia, and Samuel R Bowman. 2018. A broad-coverage challenge corpus for sentence understanding through inference. In NAACL.
  • [4] Rajpurkar P, Zhang J, Lopyrev K, et al. 2016. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250.
  • [5] Luisa Bentivogli, Bernardo Magnini, Ido Dagan, Hoa Trang Dang, and Danilo Giampiccolo. 2009. The fifth PASCAL recognizing textual entailment challenge. In TAC. NIST.
  • [6] Hector J Levesque, Ernest Davis, and Leora Morgenstern. 2011. The winograd schema challenge. In Aaai spring symposium: Logical formalizations of commonsense reasoning, volume 46, page 47.
  • [7] Bowman, Samuel R., et al. 2015. “A large annotated corpus for learning natural language inference.” arXiv preprint arXiv:1508.05326.
  • [8] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. 2018. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv preprint arXiv:1804.07461.
  • [9] Chen, Q., Zhu, X., Ling, Z., Wei, S., Jiang, H., & Inkpen, D. 2016. Enhanced lstm for natural language inference. arXiv preprint arXiv:1609.06038.
  • [10] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language understanding with unsupervised learning. Technical report, OpenAI.
  • [11] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  • [12] David H. Wolpert. 1992. Stacked generalization. Neural Networks (1992). https: //doi.org/10.1016/S0893- 6080(05)80023- 1.

作者簡介

  • 劉帥朋,碩士,美團(tuán)點(diǎn)評搜索與NLP部NLP中心高級算法工程師,目前主要從事NLU相關(guān)工作。曾任中科院自動(dòng)化研究所研究助理,主持研發(fā)的智能法律助理課題獲CCTV-1頻道大型人工智能節(jié)目《機(jī)智過人第二季》報(bào)道。
  • 劉碩,碩士,美團(tuán)點(diǎn)評搜索與NLP部NLP中心智能客服算法工程師,目前主要從事智能客服對話平臺(tái)中離線挖掘相關(guān)工作。
  • 任磊,碩士,美團(tuán)點(diǎn)評搜索與NLP部NLP中心知識(shí)圖譜算法工程師,目前主要從事美團(tuán)大腦情感計(jì)算以及BERT應(yīng)用相關(guān)工作。
  • 會(huì)星,博士,擔(dān)任美團(tuán)點(diǎn)評搜索與NLP部NLP中心的研究員,智能客服團(tuán)隊(duì)負(fù)責(zé)人。目前主要負(fù)責(zé)美團(tuán)智能客服業(yè)務(wù)及智能客服平臺(tái)的建設(shè)。在此之前,會(huì)星在阿里達(dá)摩院語音實(shí)驗(yàn)室作為智能語音對話交互專家,主要負(fù)責(zé)主導(dǎo)的產(chǎn)品有斑馬智行語音交互系統(tǒng),YunOS語音助理等,推動(dòng)了阿里智能對話交互體系建設(shè)。
  • 富崢,博士,擔(dān)任美團(tuán)點(diǎn)評搜索與NLP部NLP中心的研究員,帶領(lǐng)知識(shí)圖譜算法團(tuán)隊(duì)。目前主要負(fù)責(zé)美團(tuán)大腦項(xiàng)目,圍繞美團(tuán)吃喝玩樂場景打造的知識(shí)圖譜及其應(yīng)用,能夠打通餐飲、旅行、休閑娛樂等各個(gè)場景數(shù)據(jù),為美團(tuán)各場景業(yè)務(wù)提供更加智能的服務(wù)。張富崢博士在知識(shí)圖譜、個(gè)性化推薦、用戶畫像、時(shí)空數(shù)據(jù)挖掘等領(lǐng)域展開了眾多的創(chuàng)新性研究,并在相關(guān)領(lǐng)域的頂級會(huì)議和期刊上發(fā)表30余篇論文,如KDD、WWW、AAAI、IJCAI、TKDE、TIST等,曾獲ICDM2013最佳論文大獎(jiǎng),出版學(xué)術(shù)專著1部。
  • 仲遠(yuǎn),博士,美團(tuán)點(diǎn)評搜索與NLP部負(fù)責(zé)人。在國際頂級學(xué)術(shù)會(huì)議發(fā)表論文30余篇,獲得ICDE 2015最佳論文獎(jiǎng),并是ACL 2016 Tutorial “Understanding Short Texts”主講人,出版學(xué)術(shù)專著3部,獲得美國專利5項(xiàng)。此前,博士曾擔(dān)任微軟亞洲研究院主管研究員,以及美國Facebook公司Research Scientist。曾負(fù)責(zé)微軟研究院知識(shí)圖譜、對話機(jī)器人項(xiàng)目和Facebook產(chǎn)品級NLP Service。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的WSDM Cup 2019自然语言推理任务获奖解题思路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。