日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI 2022上那些值得关注的NLP论文

發(fā)布時間:2024/10/8 ChatGpt 106 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AAAI 2022上那些值得关注的NLP论文 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) · 作者 |?王馨月

單位 |?四川大學

研究方向?|?自然語言處理

縮略詞

1.1 SimCLAD

論文標題:

SimCLAD: A Simple Framework for Contrastive Learning of Acronym Disambiguation

論文鏈接:

https://arxiv.org/abs/2111.14306

這篇文章的作者針對縮略詞消歧問題,提出了一個簡單的縮略詞消歧對比學習框架(Simple framework for Contrastive Learning of Acronym Disambiguation , SimCLAD)。具體來說是一種持續(xù)對比預訓練方法,通過學習真實含義和歧義短語之間的短語級對比分布來增強預訓練模型的泛化能力。

上圖是首字母消歧的示例,目標是預測字典中長形式縮寫詞的正確含義。一個好的預測不僅應該理解上下文的含 義,還應該區(qū)分歧義短語的含義。

上圖是本文提出框架的示意圖。框架包含兩個域預訓練模型(學生和教師),它們使用相同的參數(shù)進行初始化。在預訓練階段,教師的參數(shù)被凍結,為學生模型提供編碼表示。此外,教師支持學生模型的 MLM 格式良好的原始目標(即 MLM 與 NSP)。

作者有意 mask 了原始的短形式首字母縮寫詞()以在教師模型中區(qū)分模糊的長形式縮略詞(),其中符號 + 和 - 是正樣本和負樣本。在學生模型的預訓練過程中采用了對比損失。具體來說,就是通過將學生模型的輸入句子中的縮寫詞(即 CL)與教師產生的“正確含義”進行屏蔽而不屏蔽相應的短語來獲得的。為了獲得字典中“reference”的表示(虛線框),我們通過對標記的嵌入進行平均來執(zhí)行短語平均方法(即對比學習)。

同時,我們讓正負樣本的表示距離保持距離,以增強模型區(qū)分混淆樣本的能力。其中學生學習的 masked 縮略詞更接近教師產生的真實含義(實線箭頭),而遠離字典中其他令人困惑的短語(虛線箭頭)。

短語級對比預訓練 loss 計算如下:

其中 是指示函數(shù),當 是 masked 縮略詞并且是相應長格式 的縮寫時 。

在微調的過程中,作者連接輸入句子的最終隱藏狀態(tài) 和可能的短語表示 以獲得兩個分類和對比學習的特征 ,在預訓練模型上添加一個非線性投影層,用于獲得表示。最后,以多任務的方式進行微調,并對兩個分類損失和對比損失進行加權平均:

實驗結果如下圖,可以看出,預訓練模型的性能優(yōu)于基于規(guī)則的方法,因為基于規(guī)則的方法由于泛化性差,很難從字典中混淆的首字母縮寫詞選項中挑選出正確的短語。SciBERT 在三個分數(shù)中都擊敗了 RoBERTa,這表明特定領域的預訓練對于科學文檔的理解具有重要意義。

科學領域預訓練模型可以捕獲令人困惑的首字母縮寫詞的深層表示。hdBERT 融合了不同類型的隱藏特征,以在二進制分類中獲得更好的泛化,從而在此任務中表現(xiàn)良好。BERT-MT 的結果表明,確實有很多有用的技巧可以幫助模型增強魯棒性的能力。

值得注意的是,所提出的方法在三個分數(shù)上都優(yōu)于其他基線,這表明具有持續(xù)對比預訓練的預訓練模型可以進一步提高模型表示首字母縮略詞的能力。集成方法可以進一步提高最終結果的多樣性,從而在測試集中獲得最佳性能。

1.2 PSG

論文標題:

PSG: Prompt-based Sequence Generation for Acronym Extraction

論文鏈接:

https://arxiv.org/abs/2111.14301

縮略詞提取任務(如下圖)是指從文檔中找到首字母縮寫詞(短格式)及其含義(長格式),這對于科學文檔理解任務很重要。針對這一任務,這篇文章的作者提出了一種基于 prompt 的序列生成(Prompt-based Sequence Generation, PSG)方法。具體來說,作者設計了一個模板,用于 prompting 提取的具有自回歸的首字母縮略詞文本。并設計位置提取算法用于提取生成答案的位置。在低資源環(huán)境中提取越南語和波斯語的縮略詞的結果表明,本文所提出的方法優(yōu)于目前的 SOTA 方法。

作者將首字母縮略詞提取任務視為序列生成問題。給定文本的一系列 token ,任務旨在從原始文本中找到相應的位置。標簽表示短形式 (即首字母縮寫詞)和長形式 (即短語),則任務為:

上圖是模型架構示意圖。作者使用 MT5 模型作為生成序列的 backbone,首先使用手動設計的 prompt 輸入文本,使用 MT5 tokenizer 進行標記,然后通過自注意機制使用 encoder 對輸入進行編碼。最后,輸出由 decoder 通過自回歸產生。輸出包含未使用的 token ,是用于 prompt tuning 的占位符,從而進一步利用來自預訓練模型的外部知識。

手動設計 prompt,以從預訓練模型中提取相關知識進行序列生成,表示“首字母縮略詞及其含義是:”。未使用的 token 被用作占位符來控制輸出,形成模板進行提示調優(yōu),其中 <extra_id_1> 表示短格式的分隔符,<extra_id_2> 表示長格式的分隔符,<extra_id_3> 表示長格式和短格式的首字母縮寫詞之間的分隔符。<extra_id_4> 表示沒有出現(xiàn)短格式的首字母縮寫詞,<extra_id_5> 表示沒有出現(xiàn)長格式的首字母縮寫詞。

序列生成的 loss 自回歸執(zhí)行,如下,其中 是上下文編碼, 是 decoder 生成的序列中的單詞, 是模型參數(shù)。

提取位置作者使用了一種貪心遍歷搜索的方法,采用從左到右的正則方法來尋找對應的位置邊界。同時,需要通過檢測邊界邊距來確保提取的輸出沒有重疊,使得提取的位置相互獨立。算法如下:

作者在越南語和波斯語數(shù)據(jù)集上實驗結果如下:

1.3 ADBCMM

論文標題:

ADBCMM: Acronym Disambiguation by Building Counterfactuals and Multilingual Mixing

論文鏈接:

https://arxiv.org/abs/2112.08991

項目地址:

https://github.com/WENGSYX/ADBCMM

這篇文章針對首字母消歧問題提出了一種稱為 ADBCMM 的方法,為了提升低資源數(shù)據(jù)集的性能,作者基于課程學習的方法,在預訓練模型的基礎上,首先對四個不同語言的數(shù)據(jù)集混合訓練,之后再在相關的數(shù)據(jù)集上“微微調”。在? SDU@AAAI- 22 - Shared Task 2: Acronym Disambiguation 中,作者所提出的方法在法語和西班牙語中獲得第一名。

上圖是英語與法語的縮略詞對比,英語中的縮略詞一般是由單詞首字母構成,而法語中則不完全是這樣。

如上圖所示,作者使用多項選擇模型框架,多項選擇模型是指在 BERT 模型的最終輸出中添加分類器,每個句子只有一個輸出值來表示這個選項的概率,每批將在訓練期間輸入同一集合中的所有可能選項。對于每一條短文,我們逐一將“長句-[SEP]-縮略詞-[SEP]-短文”作為模型的輸出,讓模型選擇最有可能的一條。

如果字典中的單詞不足,使用“Padding”進行填充,最終在輸出端進行 softmax 分類和 loss 計算。因此,我們可以通過比較方法更準確地得出每個選項的概率。與二元分類模型相比,多項選擇模型捕獲了更多的語義特征,使模型更全面地訓練和預測差異,避免負樣本動態(tài)構建造成的誤差干擾模型。

如上圖,訓練過程就像一個金字塔。首先使用多種語言的數(shù)據(jù)進行訓練,然后在預訓練的基礎上使用一種語言進行二次訓練。因為在實驗中,隨著更多語言樣本的添加,模型可能會變得不堪重負。盡管法語、英語和西班牙語屬于印歐語系,但它們都具有獨特的語言屬性、句法和詞匯。這將是不同語言的噪聲干擾,模型可能會忽略特定語言獨有的語義特征,而更愿意學習更常見的語義特征。

作者還使用了對抗學習和 D-Drop,為模型帶來1-5%的提升。作者還使用了 Child-tuning,即在訓練過程中,只微調小部分的權重。

實驗結果如上圖所示,BETO 是西班牙語預訓練模型,Flaubert-base-cased是法語預訓練模型。mDeberta-v3-base 作者也是在單語種中做了對比實驗。由表可見,mDeberta-v3-base 的如果論單語種微調的性能,遠不如只在單個語種中進行預訓練的另外兩個模型。

不過,如果加上 ADBCMM,也就是使用四份數(shù)據(jù)集,先進行訓練,之后再在單語種中訓練,這能大幅提升模型的效果。其中,“ALLs”表示單模型,使用所有方法在 dev 集中達到的最佳成績。“Finally in Test”,使用了多個模型進行融合,其中包括五折融合/隨機融合/加權融合在內的諸多融合策略,達到了最佳的效果。

問答(QA)

2.1 Block-Skim

論文標題:

Block-Skim: Efficient Question Answering for Transformer

論文鏈接:

https://arxiv.org/abs/2112.08560

NLP 任務中使用的通用 Transformer encoder 在所有層中處理上下文段落中所有輸入標記的隱藏狀態(tài)。然而,與序列分類等其他任務不同,回答提出的問題并不一定需要上下文段落中的所有標記。出于這一特點,這篇文章的作者提出了 Block-Skim,它可以識別必須進一步處理的上下文以及在推理過程中可以在早期安全丟棄的上下文,以提高 Transformer 的性能。更重要的是,這些信息可以充分地從 Transformer 的自注意力權重中推導出來。

作者在較低層的早期進一步修剪與不必要位置相對應的隱藏狀態(tài),可以實現(xiàn)顯著的推理時間加速,作者觀察到以這種方式修剪的模型性能優(yōu)于它們的全尺寸模型。Block-Skim 提高了 QA 模型在不同數(shù)據(jù)集上的準確性,并在 BERTbase 模型上實現(xiàn)了 3 倍的加速。

作者建議將上下文分割成塊,通過查看注意力權重來學習一個分類器以在較低層中盡早終止不太相關的塊。如上圖所示,問題和答案標記用紅色標記。只有問題和少量證據(jù)塊被完全處理(黃色)。利用注意力權重(灰色)的知識,略過其他塊以加速。在事實答案位置的監(jiān)督下,一個聯(lián)合學習丟棄上下文塊回答問題的模型表現(xiàn)出比其全尺寸更好的性能。

如上圖,作者提供了一個關于注意力特征圖的實證研究,以表明注意力圖可以攜帶足夠的信息來定位答案范圍。作者比較了訓練后的 BERTbase 模型中第 4 層和第 9 層的注意力權重。在第 9 層等后期層,答案標記的注意力權重明顯大于不相關標記的注意力權重。然而,在第 4 層等早期層,注意力權重強度對于答案標記和不相關標記無法區(qū)分。為了更好地減少延遲,希望盡早找到不相關的令牌。然而,使用注意力權重值作為相關性標準在早期層可能會出現(xiàn)問題。

上圖是 Block-Skim 的模型示意圖,這是基于 Transformer 的模型的即插即用模塊,以加速基于 Transformer 的 QA 任務模型。通過將注意力權重矩陣作為特征圖處理,只提供對角線區(qū)域作為每個輸入序列塊的輸入表示送入 CNN 預測器。使用預測的塊掩碼,Block-Skim 會跳過不相關的上下文塊,這些塊不會進入后續(xù)層的計算。

此外,作者設計了一種新的訓練范式,將 Block-Skim 目標與本地 QA 目標聯(lián)合訓練,其中有關問題位置的額外優(yōu)化信號直接提供給注意力機制。

實驗結果如上圖所示,可以看出 Block-Skim 在性能和速度上都有不錯的表現(xiàn)。

2.2 MuMuQA

論文標題:

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross- Media Knowledge Extraction and Grounding

論文鏈接:

https://arxiv.org/abs/2112.10728

這篇文章的作者針對跨模態(tài) QA 任務提出了一個新的 QA 評估基準——Multimedia Multi-hop Question Answering(MUMUQA)task。給定一篇帶有圖像-標題對和一個問題的新聞文章,系統(tǒng)需要通過從正文文本中提取一小段來回答問題。

重要的是,回答問題需要多跳推理:第一跳,稱為圖像實體接地,需要圖像和標題之間的跨媒體接地,以獲得與圖像相關的問題的中間答案,命名為橋項 (bridge item);第二跳需要對新聞正文進行推理,通過使用橋項提取一段文本作為最終答案。例如,在下圖 a 中,在第一跳中,我們需要將“圖像中帶藍色領帶的人”定位 到標題中的特定實體“Benjamin Netanyahu”。以“Benjamin Netanyahu”作為第二跳的橋梁項目,進一步從新聞正文中提取最終答案為“Likud”。這些問題需要使用圖像中存在的信息進行實體消歧,因此需要跨媒體基礎。

此外,作者還引入了一種基于跨媒體知識抽取和綜合問答生成的新型多媒體數(shù)據(jù)增強框架,以自動增強為上述任務提供弱監(jiān)督的數(shù)據(jù)。如下圖所示,首先,對圖像-字幕對進行多媒體實體接地,以識別圖像中以字幕為基礎的對象,以獲得接地實體,例如圖中的“Liviu Dragnea”。

接下來,為接地實體生成問題,例如“Liviu Dragnea 被指控了什么?”。我們首先在標題和正文文本上運行最先進的知識提取系統(tǒng)識別正文中對接地實體的提及,例如“Liviu Dragnea”和“chairman ”。它使我們能夠找到問題生成的候選上下文,我們將其與接地實體 e 一起輸入合成問題生成器以獲得問答對(q,a)。

我們確保生成的問題在其文本中提到了接地實體 e。然后,我們編輯這些問題,用其相應的視覺屬性替換接地引用,以產生最終的多跳問題,例如“圖像中黃色橫幅中的人是什么?”。

作者在提出的基準上評估了基于管道和端到端預訓練的多媒體 QA 模型。如下圖所示,首先,我們將多跳問題拆分為一個引用圖像的問題,稱為圖像問題,以及一個關于文本的問題,稱為文本問題。為了實現(xiàn)這一點,作者使用了多跳問題分解模型。如下圖中,問題“圖像中穿紅色外套的人在談論什么?”分解為“圖中穿紅衣的人是誰”和“[ANSWER] 談了什么”,其中 [ANSWER] 表示第一個問題的答案。

我們將第一個問題作為圖像問題,將第二個問題作為文本問題。接下來,我們找到一個可以回答圖像問題的邊框,即圖中的藍色邊框。然后,根據(jù)嵌入的相似性將圖像問題與邊框匹配。邊框在其視覺屬性類上表示為詞袋,例如“女人、西裝、紅色”;問題嵌入也表示為圖像問題中標記上的詞袋。然后,獲得與所選邊界框相關的文本跨度,例如藍色邊框的“Nikki Haley”,將此文本跨度稱為橋項。最后,我們將橋項插入到文本問題中,并針對單跳純文本 QA 模型運行它,以獲得最終答案。

下圖是 MUMUQA 基準的開發(fā)和測試集的各種 baseline 的結果,使用最終答案的宏觀平均 F1 分數(shù)進行評估。結合多媒體知識提取的好處可以從基于管道的多媒體 QA 系統(tǒng)的強大性能中看出。有趣的是,我們看到端到端多媒體 QA 基線的性能不如多跳純文本系統(tǒng)。這可能是因為 OSCAR 使用圖像-字幕對進行了預訓練,這使得它可能不適合對較大的文本輸入(在這種情況下為新聞正文)進行推理。

關系識別/抽取

3.1?LDSGM

論文標題:

A Label Dependence-aware Sequence Generation Model for Multi-level Implicit Discourse Relation Recognition

論文鏈接:

https://arxiv.org/abs/2112.11740

項目地址:

https://github.com/nlpersECJTU/LDSGM

隱式語篇關系識別(Implicit discourse relation recognition, IDRR)是語篇分析中一項具有挑戰(zhàn)性且至關重要的任務。大多數(shù)現(xiàn)有方法訓練多個模型獨立地預測多級標簽,忽略了層次結構標簽之間的依賴關系。這篇文章的作者將多級 IDRR 視為條件標簽序列生成任務,并為此提出了標簽依賴感知序列生成模型(Label Dependence-aware Sequence Generation Model, LDSGM)。

作者首先設計了一個標簽注意力 encoder 來學習輸入實例的全局表示及其特定級別的上下文,其中集成了標簽依賴性以獲得更好的標簽嵌入。然后,作者使用標簽序列 decoder 以自上而下的方式輸出預測標簽,其中預測的更高級別的標簽直接用于指導當前級別的標簽預測。

作者進一步開發(fā)了一種相互學習增強的訓練方法,以利用自下而上方向的標簽依賴性,該方法由訓練期間引入的輔助解碼器捕獲。在 PDTB 數(shù)據(jù)集上的實驗結果表明,這篇文章的模型在多級 IDRR 上實現(xiàn)了 SOTA 性能。

上圖是帶注釋的多級標簽和插入的連接詞的隱式 PDTB 實例。它由兩個參數(shù)(arg1 和 arg2)組成,并使用三個分層標簽進行注釋,其中第二級/子標簽導致進一步細化頂級/父標簽 Contingency 的語義,依此類推。在標注過程中,先插入隱式連接詞因為有利于標注標注,可以認為是最細粒度的標注。

上圖是 LDSGM 的模型架構。模型主要由一個標簽注意力 encoder 和一個標簽序列 decoder 組成。

標簽注意力 encoder 包括幾個堆疊的 Transformer 層、一個圖卷積網(wǎng)絡(GCN) 和特定于級別的標簽注意機制。具體來說,使用 Transformer 層來學習輸入實例的局部和全局表示,使用 GCN 通過整合分層結構標簽之間的依賴關系來獲得更好的標簽嵌入,最后使用標簽注意機制來從局部表示提取特定級別的上下文。之后,將學習到的全局表示和特定級別的上下文用作 decoder 的輸入,以生成標簽序列。

標簽序列 decoder是一個基于 RNN 的 decoder,它以自上而下的方式(即頂級標簽、二級標簽等)順序生成預測標簽。通過這樣做,可以使用易于預測的更高級別的標簽來指導當前級別的標簽預測。作者選擇門循環(huán)單元(GRU)來構建 decoder,因為它在文本生成中的廣泛使用和標簽序列的短長度(Transformer 也可以用作解碼器)。

上圖是訓練過程的算法描述,最顯著的特點是模型和輔助 decoder 可以通過在訓練期間在它們之間迭代地傳遞知識來相互促進。為此,除了傳統(tǒng)的基于交叉熵的損失之外,作者還引入了兩個額外的損失來最小化這兩個解碼器的預測標簽分布之間的差異:

其中 表示訓練集, 和 是 encoder 和 decoder 的參數(shù)集, 是輔助 decoder 的參數(shù)集。 是真實標簽的 one-hot 編碼, 和 分別是 decoder 和輔助 decoder 預測到的第 m 級的標簽分布。 是 的期望, 是 KL 散度。 是用于控制不同損失項目影響的系數(shù)。重復上述知識轉移過程,直到兩個損失函數(shù)收斂。這樣做可以捕獲自上而下和自下而上方向的標簽依賴性。

上圖是作者在 PDTB 數(shù)據(jù)集上進行實驗的結果,可以得出:

1. 所有使用上下文詞嵌入增強的模型都優(yōu)于使用靜態(tài)詞嵌入的模型;

2. 在大多數(shù)情況下,聯(lián)合推斷多級標簽(HierMTN-CRF-RoBERTa、OurEncoder+OurDecoder、LDSGM)比在 BMGF-RoBERTa 中單獨預測的性能更好,這意味著整合標簽依賴性確實有幫助;

3. LDSGM 模型在所有三個級別的分類任務上都達到了最先進的性能。

上圖是作者消融學習的實驗結果。

3.2?AT-BMC

論文標題:

Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction

論文鏈接:

https://arxiv.org/abs/2112.10424

項目地址:

https://github.com/crazyofapple/AT-BMC

這篇文章的作者提出了一種名為 AT-BMC 的聯(lián)合分類和基本原理提取模型。它包括兩個關鍵機制:混合對抗訓練(Adversarial Training, AT)——旨在使用離散和嵌入空間中的各種擾動來提高模型的魯棒性;邊界匹配約束(Boundary Match Constraint, BMC)——有助于在邊界信息引導下更準確地定位關系。

在基準數(shù)據(jù)集上的實驗表明,所提出的 AT-BMC 在分類和基本原理提取方面都大大優(yōu)于基線。魯棒性分析表明,所提出的 AT-BMC 有效地將攻擊成功率降低了 69%。實證結果表明,穩(wěn)健的模型和更好的解釋之間存在聯(lián)系。

上圖是 AT-BMC 模型的框架。首先使用預訓練的語言模型作為共享編碼器,將輸入編碼作為隱藏表示。然后使用線 性分類器對 和 進行建模。輸出是由線性分類器預測的標簽和由 CRF 解碼器生成的基本原理跨 度。作者還根據(jù)分類模型的預測標簽輸出來調節(jié)提取模型。通過使用嵌入查找層來實現(xiàn)這一點,并將標簽嵌入添加 到編碼器的每個 token 表示中。

上圖是嵌入層的對抗訓練算法。

上圖是具有基本原理提取的兩個文本分類任務的性能比較以及消融實驗。作者比較了使用不同編碼器(即 BERT- base 和 RoBERTa-large)的 AT-BMC 的測試集結果。

3.3?Hierarchical Stochastic Attention

論文標題:

Transformer Uncertainty Estimation with Hierarchical Stochastic Attention

論文鏈接:

https://arxiv.org/abs/2112.13776

這篇文章的作者提出了一種使 transformer 具有不確定性估計的能力,同時保留原始的預測性能的方法。這是通過學習分層隨機自注意力來實現(xiàn)的,該自注意力分別關注值和一組可學習的質心。然后使用 Gumbel-Softmax 技巧混合采樣質心形成新的注意力頭。理論上表明,通過從 Gumbel 分布中采樣的自注意力近似是有上限的。作者在具有域內(in-domain, ID)和域外(out-of-domain, OOD)數(shù)據(jù)集的兩個文本分類任務上評估模型。

實驗結果本文提出的方法:(1)在比較方法中實現(xiàn)了最佳的預測性能和不確定性權衡;(2)在 ID 數(shù)據(jù)集上表現(xiàn)出非常有競爭力的預測性能;(3)在 OOD 數(shù)據(jù)集的不確定性估計中與 Monte Carlo dropout 和 ensemble 方法相當。

上圖是不確定性估計的方法。(a)確定性神經(jīng)網(wǎng)絡輸出單點預測;(b)貝葉斯神經(jīng)網(wǎng)絡通過從高斯分布中采樣來捕捉不確定性;(c)變分 dropout 通過從 Bernoulli 分布中采樣 dropout 掩碼來捕獲不確定性;(d)集成通過將多個獨訓練的確定性模型與不同的隨機種子相結合來捕捉不確定性;(e)用于不確定性估計的 Gumbel-Softmax 技巧,隨機性來自 Gumbel 的抽樣分類分布。

與上述模型不同,作者提出了一種基于 Gumbel-Softmax 技巧或 Concrete Dropout 的簡單而有效的方法。首先,將每個 self-attention head 中的值的確定性注意力分布轉換為隨機的。然后從 Gumbel-Softmax 分布中對注意力進行采樣,該分布控制值上的濃度。

接著將 self-attention 中的關鍵頭正則化以關注一組可學習的質心。這相當于對鍵執(zhí)行聚類或對 RNN 中的隱藏狀態(tài)進行聚類。然后每個新的鍵頭將由 Gumbel-Softmax 采樣質心的混合形成。通過從 Gumbel-Softmax 分布中采樣來注入隨機性。使用這種機制,我們使用基于分層隨機自注意的隨機變換器來近似 vanilla transformer,即 H-STO-TRANS,它能夠對值以及一組可學習質心上的注意分布進行采樣。

上圖是確定性和隨機變換器中多頭自注意力的說明。(a)具有確定性自注意的 vanilla transformer。(b)隨機 transformer 具有用于加權值 V 的隨機自注意力,標準的 Softmax 被 Gumbel-Softmax 取代。(c)分層隨機 transformer 隨機學習注意值 V 和一組可學習的質心 C。

上圖是分層隨機 transformer 的算法。具體細節(jié)也可以在原文中進一步了解。

上圖是在 IMDB(ID)和 CR(OOD)數(shù)據(jù)集上模型的預測性能和不確定性估計。

3.4?Evaluating-Explanations

論文標題:

Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations

論文鏈接:

https://arxiv.org/abs/2112.09669

項目地址:

https://github.com/siddhu001/Evaluating-Explanations

這篇文章的作者進行了一項眾包研究,參與者與經(jīng)過訓練以區(qū)分真假酒店評論的欺騙檢測模型進行交互。他們既要在新評論上模擬模型,又要編輯評論以降低最初預測類別的概率。在訓練(但不是測試)階段,輸入跨度被突出顯示以傳達顯著性。通過評估,作者觀察到對于線性詞袋模型,與無解釋控制相比,在訓練期間訪問特征系數(shù)的參與者能夠在測試階段導致模型置信度的更大程度降低。對于基于 BERT 的分類器,流行的局部解釋并不能提高其在無解釋情況下降低模型置信度的能力。

上圖是本文的用戶研究,在訓練階段向參與者展示:a)首先,參與者猜測模型預測;(b)參與者編輯評論以降低模型對預測類別的信心。參與者會實時收到有關其編輯的反饋、觀察更新的預測、信心和歸因。

作者測量了三個指標(a)模擬準確性(b)模型置信度的平均降低(c)翻轉示例的百分比。三種混合效應模型可以描述為:

上圖是不同解釋下的人類表現(xiàn)。沒有任何解釋有助于參與者模擬模型,而對 BERT 模型的全局解釋和邏輯回歸模型的特征系數(shù)有助于降低模型置信度。

上圖是相對于 3 個目標指標的控制的固定效應項 。

作者得出結論:對于線性模型和基于 BERT 分類器的幾種解釋都沒有提高模型的可模擬性。當屬性不可用時,在訓 練期間可以訪問特征系數(shù)的參與者可能會在測試期間導致模型置信度大幅下降。有趣的是,對于基于 BERT 的分類器,使用經(jīng)過訓練以模擬其預測的線性學生模型獲得的全局提示詞和特征系數(shù)被證明是有效的。這些結果表明,線 性學生模型的關聯(lián)可以為基于 BERT 的模型提供見解,重要的是,編輯范式可用于區(qū)分解釋的相對效用。

3.5?CAP

論文標題:

From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression

論文鏈接:

https://arxiv.org/abs/2112.07198

項目地址:

https://github.com/alibaba/AliceMind/tree/main/ContrastivePruning

為了在剪枝模型中保持與任務無關和特定于任務的知識,這篇文章的作者在預訓練和微調的范式下提出了對比剪枝(ContrAstive Pruning, CAP)。CAP 被設計為一個通用框架,與結構化和非結構化剪枝兼容。CAP 能夠讓剪枝后的模型從預訓練的模型中學習任務不可知的知識,以及微調模型中的任務特定知識。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代的中間模型)也可以作為剪枝的有效監(jiān)督。

實驗表明,采用 CAP 始終會產生顯著的改進,尤其是在極其稀疏的場景中。僅保留 3% 的模型參數(shù)(即 97% 的稀疏性),CAP 在 QQP 和 MNLI 任務中成功實現(xiàn)了原始 BERT 性能的 99.2% 和 96.3%。此外,探索性實驗表明,經(jīng)過 CAP 修剪的模型往往具有更好 的泛化能力。

上圖是帶有和不帶有 CAP 的 BERT 剪枝的比較。展示了具有不同模型稀疏度(50%、90% 和 97%)的 MNLI、QQP 和 SQuAD 任務的平均分數(shù)。CAP 在不同的剪枝標準下始終如一地產生改進,在更高的稀疏度下獲得更大的收益(1.0 → 1.3 → 2.0)。

圖是 CAP 的框架,逐步剪枝模型 ,其中數(shù)字表示稀疏率(%)。總體而言,CAP 由 三個對比模塊組成:PrC、SnC 和 FiC。

  • PrC(綠線):使用預訓練模型 進行對比學習,以保持與任務無關的知識。

  • SnC(黃線):使用快照 進行對比學習,以彌合預訓練模型和當前修剪模型之間的差距,并獲得歷史和多樣 化的知識。

  • FiC(藍線):使用微調模型 進行對比學習,以獲得特定于任務的知識。

實線表示當前修剪模型 的學習,而虛線表示先前快照 和 的學習。

將 PrC、SnC 和 FiC 放在一起,就可以得到 CAP 框架。注意,我們可以靈活地與 CAP 中的不同修剪標準集成。

上圖是 CAP 與其他沒有數(shù)據(jù)增強的模型壓縮方法的比較。CAP 在不同任務的相同稀疏率下始終實現(xiàn)最佳性能。

上圖是不同對比模塊的消融研究。可以看出刪除任何對比模塊都會導致修剪模型的退化,尤其是在高度稀疏的情況下。

作者在原文中還給出了更詳細的實驗結果對比,值得進一步學習。

3.6 Probing Linguistic Information

論文標題:

Probing Linguistic Information For Logical Inference In Pre-trained Language Models

論文鏈接:

https://arxiv.org/abs/2112.01753

這篇文章的作者提出了一種在預訓練的語言模型表示中探測語言信息以進行邏輯推理的方法。探測數(shù)據(jù)集涵蓋了主要符號推理系統(tǒng)所需的語言現(xiàn)象列表。作者發(fā)現(xiàn)(i)預訓練的語言模型確實編碼了幾種類型的語言信息用于推理,但也有一些類型的信息被弱編碼(ii)語言模型可以通過微調有效地學習缺失的語言信息。總體而言,作者的研究結果提供了關于語言模型及其預訓練程序捕獲邏輯推理的語言信息的哪些方面的見解。此外,作者展示了語言模型作為支持符號推理方法的語義和背景知識庫的潛力。

作者提出的推理信息探測框架如上圖所示。作者定義了一組探測任務,專注于符號系統(tǒng)所需的不同類型的語言信息。特別是,涵蓋了關于句法、基本語義和高級語義推理的語言信息。高級語義推理通常依賴于多種類型的基本語義。例如,基于關系知識的語義對齊需要回指解析、命名實體和詞匯語義。我們要回答兩個問題:(1)預訓練的語言模型是否對符號推理系統(tǒng)必不可少的語言信息進行編碼?(2)預訓練的語言模型是否在 NLI 任務的微調過程中獲取新的語言信息以進行推理?

上圖是句子 “A young and tall boy wearing a black uniform is trying to catch a fast soccer ball, in front of a soccer goal.” 的用于表示語義知識的語義圖。

上圖是語義對齊任務和矛盾簽名檢測任務的示例。紅色框是語義對齊的跨度。黃色框是形成矛盾簽名的跨度。藍色框是與語義對齊或矛盾無關的跨度。這里 P 代表前提,H 代表假設。對于標簽, 表示 和 對齊。 表示標記 到 屬于語義對齊對中的第一個短語。探測數(shù)據(jù)首先從 NLU 的多個挑戰(zhàn)數(shù)據(jù)集中收集,然后為邊緣和頂點探測框架手動注釋。

上圖列出了探測和微調實驗的結果。語言模型為一個標簽編碼比其他標簽更多的語言信息。這種標簽方面的信息差異再次證明了一些語言信息在語言模型中的推理缺失和不完整。此外,我們發(fā)現(xiàn)語言模型可以通過對 NLI 任務的微調來有效地學習高級語義推理中某些類型的缺失信息。總體而言,語言模型顯示出作為支持更強大的符號推理的語言信息知識庫的潛力。

對于未來的工作,可以通過構建更詳細的探測數(shù)據(jù)集對語言模型中的每種語言信息進行進一步分析。人們還可以設計邏輯系統(tǒng),該系統(tǒng)可以從預先訓練的語言模型中訪問語言信息,并將它們應用到推理過程中,以提高大型基準測試的性能。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的AAAI 2022上那些值得关注的NLP论文的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。