清华ACL'22 | 一文读懂刘知远所在实验室18篇论文详情
每天給你送來NLP技術(shù)干貨!
來自:TsinghuaNLP
近日,ACL 2022錄用結(jié)果出爐,我組18篇論文被ACL 2022錄用,其中主會論文13篇,Findings論文5篇。以下為論文列表及介紹:
?一?
ACL?2022主會
Packed Levitated Marker for Entity and Relation Extraction
作者:葉德銘,林衍凱,李鵬,孫茂松
類型:Long Paper
摘要:最近的命名實體識別和關(guān)系抽取工作專注于研究如何從預(yù)訓(xùn)練模型中獲得更好的span表示。然而,許多工作忽略了span之間的相互關(guān)系。在這篇文章中,我們提出了一種基于懸浮標(biāo)記的span表示方法,我們在編碼過程中通過特定策略打包標(biāo)記來考慮span之間的相互關(guān)系。對于命名實體識別任務(wù),我們提出了一種面向鄰居span的打包策略,以更好地建模實體邊界信息。對于關(guān)系抽取任務(wù),我們設(shè)計了一種面向頭實體的打包策略,將每個頭實體以及可能的尾實體打包,以共同建模同頭實體的span對。通過使用增強(qiáng)的標(biāo)記特征,我們的模型在六個NER數(shù)據(jù)集上優(yōu)于基線模型,并在ACE04/ACE05端到端關(guān)系抽取數(shù)據(jù)集上以更快的速度獲得了4 F1以上的提升。論文代碼開源于https://github.com/thunlp/PL-Marker。該工作與騰訊微信模式識別中心合作完成。
QuoteR: A Benchmark of Quote Recommendation for Writing
作者:豈凡超,楊延輝,易靖,程志立,劉知遠(yuǎn),孫茂松
類型:Long Paper
摘要:在寫作中人們經(jīng)常引用名言名句來提高文章文采和說服力。為了幫助人們更快地找到合適的名言名句,研究者提出了名言名句推薦任務(wù)。該任務(wù)旨在自動推薦適合當(dāng)前上下文的名言名句。現(xiàn)在已經(jīng)有許多名言名句推薦方法,但是他們的評測基于不同的未公開數(shù)據(jù)集。為了推進(jìn)這一領(lǐng)域的研究,我們構(gòu)建了一個名為QuoteR的大規(guī)模名言名句推薦數(shù)據(jù)集。該數(shù)據(jù)集完全公開,由英語、現(xiàn)代漢語、古詩文三部分構(gòu)成,每一部分都比此前的相應(yīng)未公開數(shù)據(jù)集要大。基于該數(shù)據(jù)集,我們對此前的所有名言名句推薦方法進(jìn)行了公平而詳盡的評測。此外,我們還提出了一個名言名句推薦模型,其性能顯著超過前人方法。
以下為根據(jù)上下文“從盤面上看,股票價格會呈現(xiàn)某種帶漂移的無規(guī)則行走,漲跌無常,難以捉摸。[Quote],這話放在投資領(lǐng)域也同樣受用。事物是在不斷變化的,歷史數(shù)據(jù)只能起一定程度的參考作用。投資者想憑借歷史數(shù)據(jù)準(zhǔn)確預(yù)測未來幾乎是不可能的。”推薦的名言示例:
MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better Translators
作者:譚知行,張祥文,王碩,劉洋
類型:Long Paper
摘要:提示方法在近期已成為應(yīng)用預(yù)訓(xùn)練模型到下游任務(wù)的前沿方法。我們提出多階段提示,一種簡單且自動的應(yīng)用預(yù)訓(xùn)練模型到翻譯任務(wù)上的方法。為了更好地減少預(yù)訓(xùn)練與翻譯之間的差異,多階段提示將使用預(yù)訓(xùn)練模型進(jìn)行翻譯的過程分解為三個獨立的階段:編碼階段、再編碼階段、解碼階段。在每個階段,我們獨立地采用連續(xù)型提示來使得預(yù)訓(xùn)練模型能夠更好地轉(zhuǎn)移到翻譯任務(wù)上。實驗表明我們的方法能夠顯著提升預(yù)訓(xùn)練模型進(jìn)行機(jī)器翻譯的性能。
Integrating Vectorized Lexical Constraints for Neural Machine Translation?
作者:王碩,譚知行,劉洋
類型:Long Paper
摘要:詞匯化約束的神經(jīng)機(jī)器翻譯(NMT)使用預(yù)先指定的短語對來控制的NMT模型的生成結(jié)果。該任務(wù)在許多實際場景中有著重要的意義。但是,由于NMT模型內(nèi)部是連續(xù)的向量,和離散的詞匯約束存在著表示形式上的差異。現(xiàn)有的大多數(shù)工作都講NMT模型視作一個黑盒子,僅在數(shù)據(jù)層面或者解碼算法上施加詞匯約束,不考慮其模型內(nèi)部的信息處理方式。在本工作中,我們將離散的詞匯約束進(jìn)行向量化,將其映射為注意力機(jī)制可以直接利用的連續(xù)型鍵(key)和值(value),從而可以直接將約束集成到NMT模型中。實驗結(jié)果表明,我們的方法在四個語言對上始終優(yōu)于幾個具有代表性的基線方法。
Pass off Fish Eyes for Pearls: Attacking Model Selection of Pre-trained Models
作者:朱璧如,秦禹嘉,豈凡超,鄧仰東,劉知遠(yuǎn), 孫茂松,顧明
類型:Long Paper
摘要:為特定的下游任務(wù)選擇合適的預(yù)訓(xùn)練模型 (PTM) 通常需要在該下游任務(wù)上微調(diào)來確定,然而這一過程是十分緩慢的。為了加速這一過程,研究人員提出了基于特征的模型選擇 (FMS) 方法,該方法無需微調(diào)即可快速評估 PTM 對特定任務(wù)的可遷移性。在這項工作中,我們認(rèn)為當(dāng)前的 FMS 方法具有安全方面的隱患。為了驗證我們的觀點,我們分別從模型層面和數(shù)據(jù)層面設(shè)計了兩種算法評估FMS的魯棒性。實驗結(jié)果證明,這兩種方法都能成功地使 FMS 錯誤地判斷PTM的可遷移性。我們的研究指出了提高FMS魯棒性的新方向。該工作與清華大學(xué)軟件學(xué)院鄧仰東老師團(tuán)隊合作完成。
PPT: Pre-trained Prompt Tuning for Few-shot Learning
作者:顧煜賢,韓旭,劉知遠(yuǎn),黃民烈
類型:Long Paper
摘要:隨著預(yù)訓(xùn)練語言模型的參數(shù)量越來越大,如何高效地將大模型向下游任務(wù)適配逐漸受到研究者們的關(guān)注。最近,一種被稱為 prompt tuning 的方法提供了一種可能的解決方式。這種方法通過在固定整體模型參數(shù)的情況下,端到端地調(diào)整拼接在輸入前的一組 soft prompt, 從而在下游數(shù)據(jù)充足的情況下達(dá)到和訓(xùn)練整體模型參數(shù)相當(dāng)?shù)慕Y(jié)果。但是,我們發(fā)現(xiàn) soft prompt 的優(yōu)化較為困難,導(dǎo)致 prompt tuning 在數(shù)據(jù)量較少的情況下性能較差。因此,我們提出了一個新的訓(xùn)練框架 PPT (Pre-trained Prompt Tuning)。在這個框架中,為了解決 soft prompt 優(yōu)化困難的問題,我們將 soft prompt 先在無標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,從而得到一個較好的初始化,然后再通過上述的 prompt tuning 向下游任務(wù)適配。為了提升我們框架的通用性,我們將多個經(jīng)典的文本分類任務(wù)歸為了三種形式,并為每種形式分別設(shè)計了一種預(yù)訓(xùn)練任務(wù)。我們通過大量的實驗證明,PPT 框架可以顯著提升 prompt tuning 在少數(shù)據(jù)場景下的性能,達(dá)到甚至超過模型整體參數(shù)微調(diào)的水平。并且,在數(shù)據(jù)量增多時,PPT 的優(yōu)勢仍然可以保持。該工作與清華大學(xué)黃民烈老師團(tuán)隊合作完成。
Prototypical Verbalizer for Prompt-based Few-shot Tuning
作者:崔淦渠,胡聲鼎,丁寧,黃龍濤,劉知遠(yuǎn)
類型:Long Paper
摘要:針對預(yù)訓(xùn)練語言模型(PLM)的提示微調(diào)(prompt-based tuning)在少次學(xué)習(xí)中十分有效。通常,提示微調(diào)會將輸入文本包裝成填空問題。為了做出預(yù)測,這種方法通過一個表達(dá)器(verbalizer)將輸出的單詞映射到標(biāo)簽上。該表達(dá)器可以是人工設(shè)計的,也可以是自動構(gòu)建的。然而,人工表達(dá)器嚴(yán)重依賴于特定領(lǐng)域的先驗知識,而自動尋找合適的標(biāo)簽詞仍然是一項挑戰(zhàn),本文提出了直接從訓(xùn)練數(shù)據(jù)中構(gòu)建的原型表達(dá)器ProtoVerb。具體而言,ProtoVerb通過對比學(xué)習(xí)將學(xué)到的原型(prototype)向量作為表達(dá)器。通過這種方式,原型歸納了訓(xùn)練實例,并且能夠包含豐富的類級別語義。我們在主題分類和實體分類任務(wù)上進(jìn)行了實驗,實驗結(jié)果表明,ProtoVerb的性能明顯優(yōu)于現(xiàn)有的自動生成的表達(dá)器,特別是在訓(xùn)練數(shù)據(jù)極其匱乏的場景下。更令人驚訝的是,即使是在未微調(diào)的預(yù)訓(xùn)練語言模型上,ProtoVerb也能夠提升提示微調(diào)的性能,這表明ProtoVerb也是一種優(yōu)雅的非微調(diào)預(yù)訓(xùn)練模型利用方式。該工作與阿里AAIG自然語言處理實驗室黃龍濤老師團(tuán)隊合作完成。
bert2BERT: Towards Reusable Pretrained Language Models
作者:陳誠,尹伊淳,尚利峰,蔣欣,秦禹嘉,王鳳玉,王智,陳曉,劉知遠(yuǎn),劉群
類型:Long Paper
摘要:近年來,研究人員傾向于不斷訓(xùn)練更大的語言模型,以探索深度模型的上限。然而,大型語言模型預(yù)訓(xùn)練需要消耗大量的計算資源,并且大多數(shù)模型都是從頭開始訓(xùn)練的,沒有重復(fù)利用現(xiàn)有的預(yù)訓(xùn)練模型,這是一種浪費。在本文中,我們提出了bert2BERT,它可以通過參數(shù)初始化有效地將現(xiàn)有較小的預(yù)訓(xùn)練模型的知識轉(zhuǎn)移到大型模型,提高大模型的預(yù)訓(xùn)練效率。具體來說,我們在基于 Transformer 的語言模型上擴(kuò)展了之前的Net2Net方法。此外,我們提出了一種兩階段的預(yù)訓(xùn)練方法,以進(jìn)一步加快訓(xùn)練過程。我們對具有代表性的 PLM(例如,BERT 和 GPT)進(jìn)行了廣泛的實驗,并證明 (1) 我們的方法與從頭開始學(xué)習(xí)、StackBERT和 MSLT在內(nèi)的基線方法相比可以節(jié)省大量的訓(xùn)練成本; (2) 我們的方法是通用的,適用于不同類型的預(yù)訓(xùn)練模型。該工作由華為諾亞實驗室劉群老師團(tuán)隊主導(dǎo)完成。
?Cross-Lingual Contrastive Learning for Fine-Grained Entity Typing for Low-Resource Languages
作者:韓旭,羅宇琦,陳暐澤,劉知遠(yuǎn),孫茂松,周伯通,費昊,鄭孫聰
類型:Long?Paper
摘要:細(xì)粒度實體分類(Fine-grained Entity Typing,FGET)旨在為文本中的實體標(biāo)注細(xì)粒度實體類型,這對于諸多與實體相關(guān)的 NLP 任務(wù)具有重要意義。FGET 的一個關(guān)鍵挑戰(zhàn)是資源不足問題 —— 為擁有復(fù)雜層次結(jié)構(gòu)的實體類型來講,手動標(biāo)記數(shù)據(jù)比較困難,尤其對于英語以外的語言來講,人工標(biāo)注的數(shù)據(jù)更是十分稀缺。在本文中,我們提出一個跨語言對比學(xué)習(xí)框架來學(xué)習(xí)低資源語言上的 FGET 模型。具體來說,我們以多語言預(yù)訓(xùn)練語言模型作為模型主干,幫助將實體分類所需知識從資源豐富的語言(如英語)轉(zhuǎn)移到資源匱乏的語言(如中文)。此外,我們引入了基于實體對的啟發(fā)式規(guī)則以及機(jī)器翻譯來獲取跨語言遠(yuǎn)程監(jiān)督數(shù)據(jù),并在遠(yuǎn)程監(jiān)督數(shù)據(jù)上實施跨語言對比學(xué)習(xí)來增強(qiáng)模型的實體分類能力。實驗結(jié)果表明,基于上述框架,可以較為輕松地為低資源語言學(xué)習(xí)有效的 FGET 模型,即使沒有任何特定語言的人工標(biāo)記數(shù)據(jù)。該工作與騰訊 TencentNLP Oteam 鄭孫聰老師團(tuán)隊合作完成。
Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification
作者:胡聲鼎,丁寧,汪華東,劉知遠(yuǎn),王金剛,李涓子,武威,孫茂松
類型:Long Paper
摘要:使用特定任務(wù)提示微調(diào)(prompt-tuning)預(yù)訓(xùn)練語言模型(PLM)是一種很有前景的文本分類方法。先前的研究表明,與具有額外分類器的普通微調(diào)方法相比,提示微調(diào)在低數(shù)據(jù)場景中具有顯著優(yōu)勢。提示微調(diào)的核心思想是在輸入中插入文本片段,即模板,并將分類問題轉(zhuǎn)換為掩碼語言建模(MLM)問題,其中關(guān)鍵步驟是在標(biāo)簽空間和標(biāo)簽詞空間之間構(gòu)建投影,即表達(dá)器(verbalizer)。表達(dá)器通常是手工制作或通過梯度下降搜索的,這可能缺乏覆蓋范圍,并給結(jié)果帶來相當(dāng)大的偏差和高方差。在這項工作中,我們專注于將外部知識整合到表達(dá)器中,形成知識增強(qiáng)的提示微調(diào)方法(KPT),以改善和穩(wěn)定表達(dá)器。具體來說,我們使用外部知識庫(KB)擴(kuò)展表達(dá)器的標(biāo)簽詞空間,并在使用擴(kuò)展的標(biāo)簽詞空間進(jìn)行預(yù)測之前使用預(yù)訓(xùn)練模型本身對擴(kuò)展的標(biāo)簽詞空間進(jìn)行細(xì)化。零樣本和少樣本文本分類任務(wù)的廣泛實驗證明了知識增強(qiáng)的提示微調(diào)的有效性。該工作與美團(tuán)搜索與NLP部門合作完成。
Fully Hyperbolic Neural Networks
作者:陳暐澤,韓旭,林衍凱,趙和旭,劉知遠(yuǎn),李鵬,孫茂松,周杰
類型:Long Paper
摘要:雙曲神經(jīng)網(wǎng)絡(luò)在復(fù)雜數(shù)據(jù)建模方面有著巨大潛力。然而,現(xiàn)有的大部分雙曲神經(jīng)網(wǎng)絡(luò)并不能稱之為「完全雙曲」的,因為它們僅是在雙曲空間中編碼特征,而仍在雙曲空間原點的切空間(一個歐幾里得子空間)中進(jìn)行大部分操作。在不同的空間中頻繁切換引入額外的開銷和不穩(wěn)定性。在本文中,我們提出了一個完全的雙曲框架,基于洛倫茲變換(包括Boost和Rotation)來建立基于洛倫茲模型的雙曲神經(jīng)網(wǎng)絡(luò),以實現(xiàn)神經(jīng)網(wǎng)絡(luò)的基本操作。此外,我們還證明了現(xiàn)有雙曲神經(jīng)網(wǎng)絡(luò)所使用的切空間的線性變換是洛倫茲Rotation的一種松弛情況,且無法表達(dá)洛倫茲Boost,限制了現(xiàn)有雙曲神經(jīng)網(wǎng)絡(luò)的能力。在四個NLP任務(wù)上的實驗結(jié)果表明,我們的方法在構(gòu)建淺層和深層網(wǎng)絡(luò)方面都有更好的表現(xiàn)。該工作與騰訊微信模式識別中心合作完成。
Program Transfer for Complex Question Answering over Knowledge Bases
作者:曹書林,史佳欣,姚子俊,呂鑫,侯磊,李涓子,劉知遠(yuǎn),肖鏡輝,于濟(jì)凡,張含望
類型:Long Paper
摘要:在知識庫(KB)上回答復(fù)雜問題的程序歸納法旨在將問題分解為一個由多個函數(shù)組合而成的程序,程序在知識庫的執(zhí)行從而最終答案。程序歸納的學(xué)習(xí)依賴于給定知識庫的大量平行問題-程序?qū)ΑH欢?#xff0c;對于大多數(shù)知識庫來說,通常是缺乏這樣的標(biāo)注的,這使得學(xué)習(xí)非常困難。在本文中,我們提出了Program Transfer的方法,其目的是利用富資源知識庫上的程序標(biāo)注作為外部監(jiān)督信號來幫助缺乏程序標(biāo)注的低資源知識庫的程序歸納。對于Program Transfer,我們設(shè)計了一個新穎的兩階段解析框架,并設(shè)計了一個高效的基于知識庫本體的剪枝策略。首先,一個Sketch解析器將問題翻譯成sketch,即函數(shù)的組合;然后,給定問題和sketch,一個參數(shù)分析器從知識庫中搜索具體的函數(shù)參數(shù)。在搜索過程中,我們結(jié)合知識庫的本體來調(diào)整搜索空間。在ComplexWebQuestions和WebQuestionSP上的實驗表明,我們的方法明顯優(yōu)于SOTA方法,證明了Program Transfer和我們框架的有效性。該工作與清華大學(xué)李涓子老師團(tuán)隊和華為諾亞實驗室劉群老師團(tuán)隊合作完成。
?A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models
作者:葉德銘,林衍凱,李鵬,孫茂松,劉知遠(yuǎn)
類型:Short Paper
摘要:預(yù)訓(xùn)練的語言模型難以記住大規(guī)模語料庫中豐富事實知識,對于出現(xiàn)頻率比較低的實體,預(yù)訓(xùn)練模型更容易遺忘它們的上下文信息。在本文中,我們通過聚合一個實體在不同句子中的的輸出表示,按照需求構(gòu)建了一個可插拔的實體詞表。構(gòu)建的詞向量可以兼容地插入句子中直接作為輸入,將實體知識注入預(yù)訓(xùn)練語言模型中。與之前的知識增強(qiáng)型模型相比,我們的方法只需要2‰~5%的預(yù)計算量,并且能夠從新領(lǐng)域文本獲取知識實現(xiàn)領(lǐng)域遷移。在知識探測任務(wù)和關(guān)系分類任務(wù)上的實驗表明,我們的方法可以靈活地將知識注入BERT/RoBERTa/BART等多種不同架構(gòu)的預(yù)訓(xùn)練模型。該工作與騰訊微信模式識別中心合作完成。
?二?
Findings of ACL 2022
Sememe Prediction for BabelNet Synsets Using Multilingual and Multimodal Information
作者:豈凡超,呂傳承,劉知遠(yuǎn),孟笑君,孫茂松,鄭海濤
類型:Long Paper
摘要:在語言學(xué)中,義原被定義為語義的最小單位。人工標(biāo)注單詞的義原知識庫已成功應(yīng)用到各種NLP任務(wù)中。然而,現(xiàn)有的義原知識庫只涵蓋了少數(shù)幾種語言,阻礙了義原的廣泛利用。針對這一問題,文章提出了BabelNet同義詞集的義位預(yù)測任務(wù)(SPBS),旨在基于BabelNet多語言百科詞典構(gòu)建多語言義原知識庫。通過自動預(yù)測BabelNet同義詞集的義原,該同義詞集中的多個語言的詞將同時獲得義原注釋。然而,以往的SPBS方法并沒有充分利用BabelNet中豐富的信息。在本文中,我們利用BabelNet中的多語言同義詞、多語言定義和圖像來實現(xiàn)SPBS。我們設(shè)計了一個多模態(tài)信息融合模型,對這些信息進(jìn)行編碼和組合,進(jìn)行義原預(yù)測。實驗結(jié)果表明,我們的模型明顯優(yōu)于以前的方法。該工作與清華大學(xué)深圳研究院鄭海濤老師團(tuán)隊合作完成。
Going "Deeper": Structured Sememe Prediction via Transformer with Tree Attention
作者:葉奕寧,豈凡超,劉知遠(yuǎn),孫茂松
類型:Long Paper
摘要:含有單詞和最小語義單位的義原知識庫在很多NLP任務(wù)中有較好的表現(xiàn)。由于人工構(gòu)建義原知識庫費時費力,一些研究試圖通過對未標(biāo)注詞語的義原進(jìn)行預(yù)測來實現(xiàn)自動的知識庫構(gòu)建。然而已有的研究忽略了義原語義系統(tǒng)中非常重要的一部分——層次結(jié)構(gòu)。本篇工作中,我們首次嘗試結(jié)構(gòu)化的義原預(yù)測,即將單詞對應(yīng)的義原預(yù)測為樹狀結(jié)構(gòu)。同時,我們針對性地修改了注意力計算方法,由此設(shè)計了基于transformer的義原樹預(yù)測模型,并在實驗中驗證了它的有效性。我們也對模型的效果進(jìn)行了定量和定性的分析。本工作的代碼將會開源。
Do Pre-trained Models Benefit Knowledge Graph Completion? A Reliable Evaluation and a Reasonable Approach
作者:呂鑫,林衍凱,曹藝馨,侯磊,李涓子,劉知遠(yuǎn),李鵬,周杰
類型:Long?Paper
摘要:近年來,預(yù)訓(xùn)練語言模型(PLM)已被證明可以從大量文本中捕獲事實性知識,這促使了基于PLM的知識圖譜補(bǔ)全(KGC)模型的提出。然而,這些模型在性能上仍然落后于目前最佳的KGC模型。在本工作中,我們發(fā)現(xiàn)了這些模型性能較弱的兩個主要原因。即(1) 不準(zhǔn)確的評估設(shè)定。在封閉世界假設(shè)(CWA)下的評估可能會低估基于PLM的KGC模型,因為這類模型引入了更多的外部知識;(2)對PLM的不恰當(dāng)利用。大多數(shù)基于PLM的KGC模型只是簡單地將實體和關(guān)系的標(biāo)簽拼接起來作為輸入,這導(dǎo)致句子的不連貫,這無法利用PLM中的隱性知識。為了緩解這些問題,我們提出了在開放世界假設(shè)(OWA)下的更準(zhǔn)確的評估方式,即人工檢查不在知識圖譜中的知識的正確性。此外,我們還提出了一個新的基于PLM的KGC模型(PKGC)。其基本思想是將每個三元組及額外信息轉(zhuǎn)換為自然的提示句,并進(jìn)一步將其輸入PLM進(jìn)行分類。我們在兩個KGC數(shù)據(jù)集上的實驗結(jié)果表明,OWA在評估KGC方面更為可靠,尤其是在鏈接預(yù)測方面。此外,我們的PKCG模型在CWA和OWA設(shè)置下均取得了很好的性能。該工作與清華大學(xué)李涓子老師團(tuán)隊和騰訊微信模式識別中心周杰老師團(tuán)隊合作完成。
ELLE: Efficient Lifelong Pre-training for Emerging Data
作者:秦禹嘉,張家杰,林衍凱,劉知遠(yuǎn),李鵬,孫茂松,周杰
類型:Long?Paper
摘要:當(dāng)前的預(yù)訓(xùn)練語言模型(PLM)通常使用固定的、不更新的數(shù)據(jù)進(jìn)行訓(xùn)練,而忽略了在現(xiàn)實世界場景中,各種來源的數(shù)據(jù)可能會不斷增長,而這需要 PLM 能夠持續(xù)地整合各方面的信息。雖然這個目標(biāo)可以通過對所有新老數(shù)據(jù)重新大規(guī)模訓(xùn)練來實現(xiàn),但眾所周知,這樣的過程在計算上是十分昂貴的。為此,我們提出了ELLE,旨在對新來的數(shù)據(jù)進(jìn)行高效的持續(xù)預(yù)訓(xùn)練。具體來說,ELLE包括 (1) 功能維持的模型擴(kuò)展,它能夠靈活地擴(kuò)展現(xiàn)有 PLM 的寬度和深度,以提高知識獲取的效率;(2) 預(yù)植領(lǐng)域提示詞(prompt),從而讓模型能夠更好地區(qū)分預(yù)訓(xùn)練期間學(xué)到的通用知識,正確地激發(fā)下游任務(wù)的知識。我們在 BERT 和 GPT 上使用來自5個領(lǐng)域的數(shù)據(jù)來試驗,結(jié)果表明ELLE在預(yù)訓(xùn)練效率和下游性能方面優(yōu)于各種傳統(tǒng)的持續(xù)學(xué)習(xí)方法。該工作與騰訊微信模式識別中心周杰老師團(tuán)隊合作完成。
Prompt Tuning for Discriminative Pre-trained Language Models
作者:姚遠(yuǎn),董博文,張傲,張正彥,謝若冰,劉知遠(yuǎn),林樂宇,孫茂松,王建勇
類型:Short?Paper
摘要:在精調(diào)預(yù)訓(xùn)練語言模型方面,Prompt Tuning取得了令人印象深刻的成果。然而,現(xiàn)有的工作主要集中在對生成式預(yù)訓(xùn)練語言模型的Prompt Tuning上,其預(yù)訓(xùn)練任務(wù)為還原遮蓋的文本符號,如BERT。對于判別式的預(yù)訓(xùn)練語言模型,例如ELECTRA,是否以及如何能夠有效地進(jìn)行Prompt Tuning,仍然是一個開放挑戰(zhàn)。在這項工作中,我們提出了DPT,這是第一個用于判別式預(yù)訓(xùn)練語言模型的Prompt Tuning框架,它將NLP任務(wù)重新形式化為一個判別式語言建模問題。在文本分類和問答任務(wù)上的實驗結(jié)果表明,與傳統(tǒng)精調(diào)方法相比,DPT取得了明顯更高的性能,同時也避免了在全量數(shù)據(jù)和低資源場景下精調(diào)大模型的不穩(wěn)定問題。該工作與清華大學(xué)計算機(jī)系王建勇老師團(tuán)隊以及騰訊搜索應(yīng)用部林樂宇老師團(tuán)隊完成。
下載一:中文版!學(xué)習(xí)TensorFlow、PyTorch、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和數(shù)據(jù)結(jié)構(gòu)五件套!??后臺回復(fù)【五件套】
下載二:南大模式識別PPT??后臺回復(fù)【南大模式識別】
投稿或交流學(xué)習(xí),備注:昵稱-學(xué)校(公司)-方向,進(jìn)入DL&NLP交流群。
方向有很多:機(jī)器學(xué)習(xí)、深度學(xué)習(xí),python,情感分析、意見挖掘、句法分析、機(jī)器翻譯、人機(jī)對話、知識圖譜、語音識別等。
記得備注呦
整理不易,還望給個在看!
總結(jié)
以上是生活随笔為你收集整理的清华ACL'22 | 一文读懂刘知远所在实验室18篇论文详情的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 通向财务自由之路05_选择一个有效的理念
- 下一篇: 华硕无畏 15i BAPE®