日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

ACL 2022 | 腾讯AI Lab入选20篇论文:写作助手和交互翻译背后的技术创新

發布時間:2023/12/29 ChatGpt 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2022 | 腾讯AI Lab入选20篇论文:写作助手和交互翻译背后的技术创新 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

感謝閱讀騰訊AI Lab微信號第146篇文章。本文介紹騰訊 AI Lab 被 ACL 2022 收錄的研究成果。

國際最受關注的自然語言處理自然語言處理(NLP)頂級會議 ACL 2022 于今年 5 月 22 日至 27 日舉行,包括愛爾蘭都柏林的線下會議及線上會議兩部分。

騰訊 AI Lab 共有 20 篇論文被收錄(含 5 篇 findings),涵蓋對話與文本生成、機器翻譯、文本理解、語言模型等方向。本文為部分入選論文解讀。

騰訊 AI Lab 自然語言處理團隊的研究內容囊括從自然語言理解到生成的整個鏈條,及對 AI 系統可解釋性以及算法底層機制等理論研究,并持續向 NLP 及 AI 社區分享其領先研究成果。此前已發布多項系統及數據:

●?文本理解系統 TexSmart

https://texsmart.qq.com/?

●?交互翻譯系統 TranSmart

https://transmart.qq.com/?

●?智能創作助手 Effidit

https://effidit.qq.com/?

●?騰訊中文詞向量數據

https://ai.tencent.com/ailab/nlp/zh/embedding.html

對話與文本生成

1. 一種獨立于模型的個性化對話生成數據處理方法

A Model-Agnostic Data Manipulation Method for Persona-based Dialogue Generation

本文由騰訊AI Lab主導,與悉尼大學合作完成。為了更好地構建智能對話機器人,越來越多的研究開始考慮把顯式的人物個性信息包含到生成模型中。但是這類人物個性化對話的數據大小通常受限,進而限制了直接使用現有數據所訓練出的對話生成模型的性能。本文作者認為,此類任務中數據上的挑戰主要來源于兩個方面:首先,收集此類數據來擴充現有數據集的代價很大;其次,該數據集中每一個樣本的學習難度都要比傳統對話數據更高。

因此,本文針對以上兩點問題,提出了一種新的個性化對話數據處理方法,該方法獨立于模型因此可以和任意一種個性化對話生成模型結合進而提升其性能。本文首先對原始數據樣本進行蒸餾,剔除難以學習的樣本進而讓模型可以更容易地擬合蒸餾后的樣本分布。之后,使用多種不同的方法來有效地增強蒸餾后的樣本,使其變得更多樣進而緩解其數量不足的問題。最后,目標模型會使用我們構建的數據課程進行訓練,即先在增強后的蒸餾數據上進行訓練,之后再在原始樣本上進行訓練。

實驗表明,該方法可以有效地提升兩種對話生成模型(Transformer和GPT2)在此類任務上的性能。

2. 基于詞匯知識內化的神經網絡對話生成

Lexical Knowledge Internalization for Neural Dialog Generation

本文由騰訊AI Lab主導,與香港大學,華東師范大學,上海人工智能研究院合作完成。本文提出使用知識內化的方法來把詞匯知識嵌入補充到神經對話模型當中。相較于基于知識的對話模型直接依賴于一個外部檢索到的知識,該方法嘗試將關于每個輸入單詞的詞匯知識嵌入到對話模型的參數當中。為了應對規模巨大的詞匯知識,本文采用了對比學習的方法,并利用維基百科的弱監督信息構建了一個詞級別的詞匯知識檢索器。該方法在多個數據集和模型架構上驗證了有效性。

3. 邁向抽象而接地的播客轉錄文本摘要

Towards Abstractive Grounded Summarization of Podcast Transcripts

本文由騰訊AI Lab主導,與中佛羅里達大學合作完成。播客最近迅速普及,播客轉錄文本的摘要對內容提供者和消費者都有實際好處,可以幫助消費者快速決定是否會收聽播客,并減少內容提供者編寫摘要的認知負擔。然而,播客摘要面臨重大挑戰,包括與輸入相關的事實不一致。口語記錄中的語音不流暢和識別錯誤加劇了這個問題。

本文探索了一種新穎的抽象摘要方法來緩解這些挑戰。具體來說,我們的方法學習生成一個抽象的摘要,同時將摘要段對應轉錄的特定部分,以允許對摘要細節進行全面檢查。我們在大型播客數據集上對所提出的方法進行了一系列分析,并表明該方法可以取得了可觀的結果。接地的摘要在定位包含不一致信息的摘要和轉錄片段方面帶來了明顯的好處,從而顯著地在自動和人工評估指標,都提高了摘要質量。

4. 邊講邊學:基于敘事預訓練的零樣本對話理解

Learning-by-Narrating: Narrative Pre-training for Zero-Shot Dialogue Comprehension?

本文由騰訊AI Lab與俄亥俄州立大學合作完成。對話理解需要捕獲話語中的各種關鍵信息,這些信息有可能分散于多輪對話的不同位置或者隱含在話語中。因此,對話理解模型需要綜合多種自然語言理解能力,例如復述、總結、常識推理、隱含知識推理等。

本文提出了一個“邊講邊學”(leaning-by-narrating)的預訓練策略。該策略通過在預訓練過程中引導模型對輸入對話的內容進行敘述,從而使模型學習并理解對話中的關鍵信息。然而,目前還沒有公開的大規模對話-敘述平行語料庫能夠支持這種預訓練策略。為此,我們首先收集了大量電影字幕及情節摘要數據,通過將二者進行自動切分和對齊,從而構建了一個對話-敘述平行語料庫-DIANA。然后,在該語料庫上對模型進行生成式預訓練,并在四個對話理解的下游任務中對模型性能進行評估。

實驗結果表明,該模型在零試學習的場景下性能顯著優于先前的模型。同時發現DIANA中蘊含著多種類型的知識,可以提高模型在多種細粒度對話理解層面的能力。

5. 開放式文本生成的事件轉換路徑規劃

Event Transition Planning for Open-ended Text Generation

本文由騰訊AI Lab主導,與香港大學、山東大學、上海人工智能研究院合作完成,被會議接收為Findings長論文。開放式文本生成任務,例如對話生成和故事完成,需要模型在有限的先前上下文中生成連貫的延續,給當今的神經自回歸文本生成器帶來了新的挑戰。盡管這些神經模型擅長生成流暢的文本,但它們很難建模給定上下文中的事件與可能發生的事件之間的因果關系。

為了彌合這一差距,本文提出了一種新穎的兩階段方法,可明確地建模開放式文本生成中的事件轉移規劃。該方法可以理解為一種經過特殊訓練的從粗到細的算法,其中事件轉換規劃器提供“粗略”的事件骨架,而第二階段的文本生成器會細化骨架。在兩個開放式文本生成任務上的實驗表明,該方法在連貫性和多樣性方面有效地提高了生成文本的質量。

機器翻譯

1. 彌合無監督神經機器翻譯訓練和推理之間的數據差距

Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation

本文由騰訊AI Lab主導,與上海交通大學合作完成。作為無監督神經機器翻譯的重要組成部分,回譯利用目標語言的單語數據生成偽平行數據。無監督神經機器翻譯模型在這些源端是翻譯句子的偽平行數據上進行訓練,但往往對自然書寫的源端文本進行翻譯推理。源端數據在訓練和推理之間的差異阻礙了無監督神經機器翻譯模型的翻譯性能。

通過精心設計的實驗,我們確定了源端數據差異性的兩個代表性特征:(1)風格差異(即翻譯與自然文本風格)導致較差的泛化能力;(2)內容差異誘使模型產生偏向目標語言的幻覺內容。

為了縮小這種數據差異,我們提出了一種在線的自訓練方法,它同時使用{自然的源端句子,翻譯的目標端句子}的偽平行數據來模擬推理的場景。在多個廣泛使用語言對上的實驗結果表明,我們的方法通過彌補風格和內容上的差距,超過了兩個強基線模型(XLM和MASS)。

2. 理解和提高針對機器翻譯的序列到序列預訓練模型

Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation

本文由騰訊AI Lab主導,與香港中文大學和阿爾伯塔大學合作完成。本研究旨在理解和改進針對機器翻譯系統的序列到序列的預訓練研究,特別是針對預訓練解碼器。我們發現序列到序列的預訓練是一個雙刃劍:一方面這個模塊可以提高翻譯模型的譯文的準確性和多樣性;另一方面,由于預訓練和下游翻譯任務的不同,預訓練解碼器會引入生成風格的偏移以及過度自信的問題,從而限制模型性能。

基于以上的發現,我們提出了兩種簡潔而有效的方法來提高預訓練模型在下游翻譯任務上的表現,包括領域內預訓練和輸入自適應。前者將預訓練模型在領域內單語數據上繼續訓練,從而縮小預訓練模型與下游翻譯任務數據分布上的差異。后者對下游翻譯任務的輸入數據進行加噪,并將加噪數據與原始數據混合訓練翻譯任務模型,從而更好的將預訓練模型的知識遷移到下游翻譯任務模型。我們在多個翻譯任務上進行了實驗,驗證了我們的方法可以有效地提高模型翻譯效果和魯棒性。

3. BiTIIMT:一種基于雙語文本填充的交互式機器翻譯方法

BiTIIMT: A Bilingual Text-infilling Method for Interactive Machine Translation

本文由騰訊AI Lab主導,與南京大學合作完成。交互式機器翻譯(INMT)通過人工干預,可以保證高質量的譯文輸出。現有的交互式系統通常采用約束解碼算法(LCD):它可以采用一種靈活的方式進行翻譯,從而避免了自左向右翻譯范式的約束。然而,由于約束解碼的原因,這種交互系統在翻譯效率和翻譯質量上存在明顯的不足。

本文提出了一種新穎的交互翻譯系統,即基于雙語文本填充的交互翻譯模型。它的基本思想是一個雙語文本填充(BiTI)任務:對于給定的源語言和人工校對的翻譯譯文片段,自動地進行句子填充從而獲得更好的譯文。通過將這個任務轉化為序列到序列的任務,本文提出了一種簡單有效的方法來進行實現。這種實現方法的優勢是,它的解碼效率與標準NMT的效率相同,而且它可以充分地利用人工校對的信息進行準確的詞預測。

實驗結果表明,該方法在翻譯質量、效率和一致性上都優于詞約束解碼方法。

4. 低頻詞重分布:充分利用單語數據增強非自回歸翻譯

Redistributing Low-Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation

本文由騰訊AI Lab主導,悉尼大學合作完成。知識蒸餾(KD)是訓練非自回歸翻譯(NAT)模型的首要步驟。它可以簡化NAT的模型訓練,但代價是丟失翻譯低頻詞的重要信息。本文提出了一個有吸引力的替代方案:單語KD。該方案利用從原始平行數據訓練的AT老師來蒸餾額外的單語數據,從而訓練AT學生。單語KD能夠將原始雙語數據的知識(隱式編碼在AT教師模型中)和新的單語數據知識傳遞到NAT學生模型。在8個WMT基準數據集上對2個先進的NAT模型進行的大量實驗表明,單語KD通過改善低頻詞翻譯而始終優于標準KD方法,且不引入任何計算開銷。

同時,單語KD具有良好的可擴展性,當給定更多計算開銷,其可以通過與標準KD融合、反向單語KD融合或擴大單語數據規模來進一步增強。大量的分析表明,這些技術可以有效地融合,從而進一步召回在標準KD中丟失的有用信息。令人鼓舞的是,我們的方法融合標準KD后,在WMT14英-德和德-英數據集上分別獲得了30.4和34.1 BLEU值。

該項工作的代碼和模型已開源:

https://github.com/alphadl/RLFW-NAT.mono

5. 可視化模型學習到的語言學信息和任務性能之間的關系

Visualizing the Relationship Between Encoded Linguistic Information and Task Performance

本文由騰訊AI Lab主導,與中國科學技術大學和日本奈良先端科學技術大學合作完成,被會議接收為Findings長論文。Probing是一種很流行的方法,它可以分析一個訓練好的神經網絡模型是否學習到語言學信息,但是,它無法回答改變模型學習到的語言學信息是否會影響任務的性能。為此,本文從帕累托最優的角度出發,研究語言學信息與任務性能之間的動態關系。它的基本思想是嘗試解決這樣一個優化問題:優化出一個模型參數的子集使得它的每個元素都滿足語言學信息和任務性能兩方面的近似最優性。據此,本文將這個問題轉化為一個多目標優化問題,并提出了一個方法來優化帕累托最優的模型參數子集。

本文在兩個自然語言處理的主流任務上(機器翻譯和語言模型)進行了實驗,并展示了多種不同語言學信息與任務性能之間的關系。實驗結果表明,本文提出的方法優于一個基線方法。同時,經驗結果表明適量的句法信息有利于兩個任務,但是更多的信息未必導致更好的任務性能,因為模型的結構也是一個重要的因素。

6. 機器翻譯自動度量評價中的數據變化性問題

Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics

本文由騰訊AI Lab主導,與中國科學技術大學,日本奈良先端科學技術大學和意大利特倫托大學合作完成,被會議接收為Findings短論文。在度量評價時,往往關注一個領域的單個數據集;比如,每年WMT度量評價任務上,新聞領域通常只給出了一個數據集。本文進行了定性和定量的分析實驗,結果表明度量的表現對所采用的數據具有敏感性,即度量的排序隨著所采用的數據變化而變化,即使這些數據都來源于相同的領域。隨后本文進一步分析了導致這個問題的兩個可能原因,即,非顯著的樣本點和獨立同分布假設的違背。最后,本文建議,在評價度量時需要注意數據變化的問題并避免采用一個數據進行比較,否則得出的結論可能會有數據變化的問題。

文本理解

1. 重新思考負采樣-一種處理實體漏標注問題的方法

Rethinking Negative Sampling for Handling Missing Entity Annotations

本文由騰訊AI Lab獨立完成。負采樣可以有效地處理命名實體識別中的漏標注問題。本文的一個貢獻是,從抽樣錯誤和不確定性兩個角度出發,分析了負采樣方法的有效性。實驗表明,較低的抽樣錯誤率和較高的不確定性是負采樣有效的關鍵。基于命名實體稀疏性的特點,本文研究了抽樣錯誤率為0的概率,推導出了這個概率的一個下界,它與句子的長度相關。

根據上述分析,本文還提出了一種自適應的加權抽樣方法,它可以進一步提升負采樣的性能;這是本文的另外一個貢獻。在模擬數據和標注完整的數據集(CoNLL-2003)上, 本文提出的負采樣方法取得了更好的F1值以及更快的收斂;另外,在真實的漏標注數據(EC)上,該負采樣方法獲得了最好的效果。

2. 利用情境常識提高機器閱讀理解

Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge

本文由騰訊AI Lab主導,與康奈爾大學合作完成。為了在機器閱讀理解 (MRC) 任務中表現出色,機器閱讀理解模型通常需要具備給定文檔中未明確提及的常識知識。本文旨在劇本中提取一種新的結構化知識,并將其用于改進 MRC。我們專注于劇本,因為它們包含豐富的語言和非語言信息,并且在短時間內由不同形式傳達的兩條相關信息可能可以作為一條常識知識的元素(argument)對,因為其在日常交流中共同發揮作用。

為了減少人工命名關系帶來的成本,我們建議通過將這樣的元素對置于上下文中來隱式表示它們之間的關系,并將其稱為情境知識。? 為了使用提取的知識來改進 MRC,我們比較了幾種微調策略來使用基于情境知識構建的弱標記 MRC 數據,并進一步設計了具有多個teachers的teacher-student范式,以促進弱標記MRC 數據中的知識轉移。

實驗結果表明,我們的范式優于其他使用弱標記數據的方法,并且在中文多選 MRC 數據集 C3 上將最先進的基線模型準確率提高了 4.3%,其中大多數問題需要未在文中明說的先驗知識。我們還試圖通過簡單地微調生成的student模型來將知識轉移到其他任務,在關系抽取數據集 DialogRE 上帶來 2.9% 的 F1提升,體現了情境知識對于需要的文檔理解的非 MRC 任務的潛在的價值。

3. 作為廉價監督信息的變分自動編碼在AMR指代消解的應用

Variational Graph Autoencoding as Cheap Supervision for AMR Coreference Resolution

本文由騰訊AI Lab主導,與耶魯大學合作完成。對 AMR 之類的語義圖的共指解析旨在對表示同一實體的圖節點進行分組, 這是構造文檔級形式語義表示的關鍵步驟。借助關于 AMR 共指解析的注釋數據,深度學習方法最近在這項任務中顯示出巨大的潛力,但它們通常需要大量訓練數據并且注釋數據的成本很高。

本文提出了一種基于變分圖自動編碼器(VGAE)進行 AMR 共指解析的通用預訓練的方法,該方法可以利用任何通用 AMR 語料庫,甚至可以AMR模型自動生成的 AMR 數據。在標準數據集的實驗表明,預訓練方法實現了高達 6% 的絕對 F1 點的性能提升。此外,我們的模型比之前的最先進模型顯著地提高了 11% F1 點。

4. 基于 Zipf's law 的少樣本語義消歧

Rare and Zero-shot Word Sense Disambiguation using Z-Reweighting

本文由騰訊AI Lab與香港科技大學合作完成。語義消歧(WSD)一直是自然語言里面最核心的問題之一。現有模型通常依賴于大型的預訓練模型和大量的標注數據來取得效果的提升。但是這類監督學習的方法通常會面臨數據不平衡分布的問題,以至于這些模型在比較常見的詞上面效果很好,但是在一些低頻詞上面效果卻很差。

本文提出了一個基于 Zipf's law 的數據采樣策略,來幫助模型更地平衡高頻詞與低頻詞上訓練的效果問題。實驗結果表明,在不損害高頻詞WSD效果的同時,該方法能夠大大提升模型在低頻詞和zero-shot詞上面的表現。

語言模型

1. 從中文GPT的預訓練模型到拼音輸入法的適配探究

Exploring and Adapting Chinese GPT to Pinyin Input Method

本文由騰訊AI Lab主導,與新加坡管理大學、浙江大學合作完成。本文主要研究了將中文GPT的預訓練模型適配到拼音輸入法的問題。我們發現,在GPT的廣泛使用中,仍然缺少對拼音輸入法的探索。經過對生成過程加上拼音的限制,全拼場景下的GPT的效果十分突出,在傳統的數據集上就能達到SOTA。然而,對于首字母的情形,GPT的效果出現大幅下滑,這與同聲母字的候選大幅增加相關。

本文采取兩種策略來解決這個問題,一方面讓模型充分使用上下文信息和拼音信息,另一方面增強訓練過程中對同聲母字的辨析。為了助力拼音輸入法的評測,團隊基于最新的語料,構建了跨15個領域的270k的測試集合,集合的樣本覆蓋多種上文的長度和預測長度組合。對模型的分析和消融顯示,模型的兩個策略都對最后的效果有促進作用。實驗結果對輸入法的研究具有參考意義。

2. CoCoLM:復雜常識知識強化的語言模型

CoCoLM: Complex Commonsense Enhanced Language Model

本文由騰訊AI Lab與香港科技大學合作完成,被會議接收為Findings長論文。大規模預訓練模型展示出了很強的知識表征能力,但是現有研究仍然表明即便這些模型展示出了非常強的低階常識知識的能力,他們表征更復雜的高階常識的能力仍然有所欠缺。

為了解決這個問題,本文提出將利用有的常識知識來增強語言模型對于常識的理解能力。具體來說,我們設計了一個三階段的模型。第一階段為general purpose的預訓練,第二階段為針對常識知識的預訓練,第三階段為fine-tuning。實驗結果表明這樣的一個結構能夠幫助我們獲得一個常識知識增強的語言模型CoCoLM,并在多個下游常識理解任務上取得顯著的提升。

3. 全字掩蔽一直是中文BERT更好的掩蔽策略嗎:在中文語法糾錯任務上的探查

“Is Whole Word Masking Always Better for Chinese BERT?”: Probing on Chinese Grammatical Error Correction

本文由騰訊 AI Lab主導,與復旦大學合作完成,被會議接收為Findings短論文。全字掩蔽(WWM)是一次性地把一個字所對應的所有子詞全部進行掩蔽,這種策略能夠得到更好的英文BERT模型。但是對于中文來講,每一個字都是無法分割的最小字符,它沒有子詞的概念。中文的詞和英文的詞區別在于,中文的詞是由不同的字組合而成。這樣的區別促使我們去研究是否WWM能夠使得中文BERT具有更好的內容理解能力。

為此,該項工作引入了兩個跟中文語法糾錯相關的探針任務,它們利用預訓練模型本身的方式去修正或者插入一些中文字或詞。我們構建了一個數據集用來完成這兩個任務,它具有10,448個句子和19,075個字的標簽。我們訓練了三個模型,它們分別采用了字掩蔽(CLM),WWM, 以及同時采用CLM和WWM。

本文的主要發現包括:第一,當只有一個字需要被修正或插入,采用CLM訓練的預訓練模型表現更好。第二,當連續的兩個字及更多字需要被處理時,WWM起到了關鍵性的作用。第三,當對句子級別的下游任務進行微調時,幾種掩蔽策略表現相當。

4. 通過查詢百萬參考文獻回答開放領域問題的預訓練

C-MORE: Pretraining to Answer Open-Domain Questions by Consulting Millions of References

本文由騰訊AI Lab主導,與俄亥俄州立大學合作完成。本文研究了如何預訓練兩階段開放式問答系統(retriever+reader)。關鍵的挑戰是如何在沒有特定任務標注的情況下構建大量高質量的上下文問答三元組(question-answer-context triplet)。

具體來說,三元組應該通過以下方式與下游任務保持一致:(i)覆蓋廣泛的領域(對于開放領域應用),(ii)將問題與其語義相關的上下文聯系起來,并提供支持證據(用于訓練retriever),以及(iii)在上下文中識別正確答案(用于訓練reader)。已有的預訓練方法通常達不到其中一項或多項要求。

在這項工作中,我們通過查閱維基百科(Wikipedia)中引用的數以百萬計的參考文獻,自動構建了一個滿足所有三個標準的大規模語料庫。構建的語料庫對retriever和reader都有顯著的好處。相較于已有方法,我們經過訓練的retriver在top-20 accuracy上提高了2%-10%,整個系統的accuracy最高提高了4%。

* 歡迎轉載,請注明來自騰訊AI Lab微信(tencent_ailab)

總結

以上是生活随笔為你收集整理的ACL 2022 | 腾讯AI Lab入选20篇论文:写作助手和交互翻译背后的技术创新的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。