EMNLP 2021 | ST-ToD:小样本场景下的任务型对话预训练
?PaperWeekly 原創(chuàng) ·?作者?|?褚維蕪
單位?|?北京郵電大學(xué)研究生
研究方向?|?自然語言處理
論文標(biāo)題:
Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems
論文鏈接:
https://arxiv.org/abs/2108.12589
代碼鏈接:
https://github.com/MiFei/ST-ToD
背景介紹
1.1 動機(jī)
在面向任務(wù)的對話(ToD)系統(tǒng)中,數(shù)據(jù)標(biāo)注成本非常高,怎樣利用有限的標(biāo)注數(shù)據(jù)來訓(xùn)練任務(wù)型對話系統(tǒng)的各個模塊是一個具有挑戰(zhàn)的任務(wù)。因此,ToD 中的小樣本學(xué)習(xí)在實際應(yīng)用中具有重要的價值。雖然有標(biāo)注的數(shù)據(jù)非常少,但實際的 ToD 系統(tǒng)實際有許多無標(biāo)注的對話數(shù)據(jù)。因此,利用無標(biāo)注的數(shù)據(jù)來改進(jìn) ToD 系統(tǒng)中各個模塊的性能具有重要的現(xiàn)實意義。
1.2 主要工作
本文提出了一種自訓(xùn)練(Self-training)方法,該方法利用無標(biāo)注的對話數(shù)據(jù)來改進(jìn)基于預(yù)訓(xùn)練模型的 ToD 系統(tǒng)在少樣本學(xué)習(xí)(few-shot learning)場景下的性能,主要貢獻(xiàn)如下:
本文是首次在小樣本學(xué)習(xí)場景下研究自訓(xùn)練方法對現(xiàn)有的 ToD 預(yù)訓(xùn)練模型的影響。
本文提出了一種自訓(xùn)練方法,該方法迭代地為無標(biāo)注數(shù)據(jù)中模型預(yù)測的置信度最高的數(shù)據(jù)打上標(biāo)簽,這些偽標(biāo)注數(shù)據(jù)可以用于訓(xùn)練更強(qiáng)的 Student 模型。此外,本文提出了一種新的文本增強(qiáng)技術(shù)(GradAug),即在 MLM 中只 mask 非關(guān)鍵字符,這種方式保留句子的語義信息,從而更好地訓(xùn)練 Student 模型。
本文在 ToD 中的四個下游任務(wù)(意圖分類、對話狀態(tài)跟蹤、對話行為預(yù)測和回復(fù)選擇)上進(jìn)行了實驗,實驗結(jié)果表明,本文所提出的自訓(xùn)練方法可以繼續(xù)提高目前最先進(jìn)的預(yù)訓(xùn)練模型(BERT、ToD-BERT)的性能。
下游任務(wù)介紹
任務(wù)定義
不同的下游任務(wù)的輸入和對應(yīng)的標(biāo)簽均定義為 和 ,預(yù)測模型定義為 , 通常情況下可以分為兩個部分:一部分為特征提取器 ,本文使用的是 BERT 的 [CLS] 位置的輸出作為隱狀態(tài)表示 ;另一部分為用于預(yù)測的輸出層,需要為不同的下游任務(wù)設(shè)計不同的輸出層。
意圖分類(Intent classification,IC)
意圖分類是一個多分類任務(wù),輸入一個話語 ,模型在 個意圖上預(yù)測該話語對應(yīng)的意圖,并采用交叉熵?fù)p失函數(shù)對模型進(jìn)行優(yōu)化。
對話狀態(tài)追蹤(Dialog state tracking,DST)
對話狀態(tài)追蹤也是一個多分類任務(wù),輸入一段對話歷史 ,模型在每個 對上預(yù)測對應(yīng)輪次的槽值。第 個 對上的第 個槽值 與輸入 的余弦相似度分?jǐn)?shù)為:
其中 為第 個 對的槽投影層, 的數(shù)目等于 對的數(shù)量。模型訓(xùn)練的損失函數(shù)為所有 對的交叉熵?fù)p失的和。
對話行為預(yù)測(Dialog act prediction,DA)
對話行為預(yù)測是一個多標(biāo)簽分類任務(wù),輸入一段對話歷史 ,模型對當(dāng)前對話輪次的對話動作進(jìn)行 0-1 預(yù)測,采用 0-1 交叉熵?fù)p失函數(shù)對模型進(jìn)行優(yōu)化。
回復(fù)選擇(Response selection,RS)
回復(fù)選擇任務(wù)是一個排序問題,輸入一段對話歷史 ,該任務(wù)從回復(fù)候選池中檢索最相關(guān)的系統(tǒng)回復(fù)。本文 2019 年 Henderson 等人?[1]?提出的雙編碼器模型計算輸入對話歷史 與第 個候選響應(yīng) 之間的相似性。采用交叉熵?fù)p失函數(shù)。
模型
3.1 自訓(xùn)練算法
本文所提出的自訓(xùn)練算法總體流程如上圖所示。在訓(xùn)練過程中需要維護(hù)兩個數(shù)據(jù)池:未標(biāo)注數(shù)據(jù) 和已標(biāo)注數(shù)據(jù) ,兩個版本的模型: 和 。該算法可以分為五個步驟:
初始化 模型 (算法1 第1行)利用少量的標(biāo)注數(shù)據(jù)(數(shù)據(jù)集的 1% or 10%)進(jìn)行訓(xùn)練, 模型進(jìn)行 warm up。
利用 模型對無標(biāo)注的數(shù)據(jù) 的標(biāo)簽進(jìn)行預(yù)測(算法 1 第 4-8 行)對于每一個輸入數(shù)據(jù) , 模型會對其標(biāo)簽進(jìn)行預(yù)測 。本文將預(yù)測分?jǐn)?shù) 設(shè)定為該預(yù)測的置信度分?jǐn)?shù) 。注意:當(dāng)預(yù)測 僅包含一個標(biāo)簽時(如:意圖分類、回復(fù)選擇), 為該輸入數(shù)據(jù) 的預(yù)測標(biāo)簽對應(yīng)的預(yù)測分?jǐn)?shù);當(dāng)預(yù)測 包含多個標(biāo)簽時(如:對話狀態(tài)追蹤、對話動作預(yù)測), 為輸入數(shù)據(jù) 的預(yù)測標(biāo)簽對應(yīng)的預(yù)測分?jǐn)?shù)的平均值。
根據(jù)置信度分?jǐn)?shù) 從 選擇 個實例進(jìn)行標(biāo)注(算法 1 第 9-10 行) 本文選擇的方式是在置信度分?jǐn)?shù)中選擇最高的 個實例,并利用 對這些實例進(jìn)行標(biāo)注。這些標(biāo)注的實例會從 轉(zhuǎn)移到 。
對已標(biāo)注數(shù)據(jù) 進(jìn)行文本增強(qiáng)(GradAug),得到 (算法 1 第 11 行)
利用 來訓(xùn)練 模型(算法 1 第 12 行)本文在每次迭代中均需要重新初始化 模型以避免在多次訓(xùn)練迭代中過度擬合 中的初始和早期數(shù)據(jù)。一般而言, 應(yīng)該具有與 同等的或更高的能力,才可以隨著 中數(shù)據(jù)量不斷地增加來學(xué)習(xí)知識。本文將 設(shè)置為與 相同的大小,并且實驗證明了可以在不增加模型容量的情況下得到性能的提升。
用訓(xùn)練得到的 模型來覆蓋原來的 模型,進(jìn)行下一輪的訓(xùn)練(算法 1 第 13 行)
3.2 文本增強(qiáng)技術(shù)(GradAug)
本文對已標(biāo)注的數(shù)據(jù) 提出了一種文本增強(qiáng)技術(shù)(GradAug),以此來學(xué)習(xí)更穩(wěn)健的 模型。GradAug 使用 MLM(masked language model)來進(jìn)行文本增強(qiáng),不同于最佳提出的文本增強(qiáng)方式 SSMBA 采用隨機(jī) mask 的方式,GradAug 認(rèn)為,如果一段文本中的關(guān)鍵詞被 mask了,在重構(gòu)文本時原始的語義將會被改變,這將對下游任務(wù)產(chǎn)生很大的影響。
如下圖所示(左),如果“status”被 mask,重構(gòu)的文本可能會是“purpose”、“route”這些詞,語義本身被改變了。
基于此,本文提出的 GradAug 采用的是基于梯度的 mask 方式(Gradient-based token masking),對于每一個包含 個詞的輸入文本 ,GradAug 會根據(jù)該詞對應(yīng)任務(wù)標(biāo)簽的重要性生成一個 mask 概率 。具體而言可以分為三個步驟:
計算 (算法2 第3行) 對于輸入 的嵌入矩陣為 和標(biāo)簽 ,每一個詞對標(biāo)簽 的重要性是通過顯著性映射(saliency map) 計算:
? 通過將 對 進(jìn)行微分(計算梯度)來得到文本中第 個詞對標(biāo)簽 的重要性。然而原始梯度可能包含噪音,且可能在局部劇烈波動。因此,本文計算第 個詞的平滑顯著性度量(smooth saliency measure) 為:
其中高斯噪聲 。第 個單詞被 mask 的概率 與 成反比,即該單詞對標(biāo)簽 越重要,則其被 mask 的概率就越小:
最后,利用 中元素的和對其進(jìn)行標(biāo)準(zhǔn)化得到 mask 概率 。
根據(jù) 來對 中 15% 的詞進(jìn)行 mask得到 (算法 2 第 5 行)
用 MLM 來對 進(jìn)行重構(gòu),得到原本文 的擴(kuò)充文本 (算法 2 第 6 行)根據(jù)每個 [MASK] 的預(yù)測概率,從 10 個最可能的詞中抽取 1 個詞來進(jìn)行重構(gòu)。由于基于梯度的 mask 方案避免了替換對 的語義很重要的詞,所以可以認(rèn)為 和 的標(biāo)簽 是一樣的。
實驗
4.1 數(shù)據(jù)集、評測指標(biāo)、Baseline
四個下游任務(wù)的評測指標(biāo)和 TOD-BERT?[2]?一致,共選用四個不同數(shù)據(jù)集:意圖分類(OOS)、對話狀態(tài)追蹤(MWOZ)、對話動作預(yù)測(MWOZ、DSTC2、GSIM)、回復(fù)選擇(MWOZ、DSTC2、GSIM)。實驗中,隨機(jī)抽取 1% 或 10% 的訓(xùn)練數(shù)據(jù)作為初始的標(biāo)注數(shù)據(jù)?,其余數(shù)據(jù)作為未標(biāo)注數(shù)據(jù)?。
本文將所提出的自訓(xùn)練方法(ST)分別應(yīng)用于兩個基線模型:BERT 和 TOD-BERT。
4.2 評測結(jié)果
4.2.1 意圖分類
從表中可以看出,ST 在很大程度上提高了 out-of-scope 意圖的召回率,表明它對具有噪聲分布的 out-of-scope 意圖具有更強(qiáng)的魯棒性。另外,僅從實驗結(jié)果來看,數(shù)據(jù)量越少,ST 相比于 baseline 的提升越明顯。
4.2.2 對話狀態(tài)追蹤
從表中可以看出,ST 持續(xù)改進(jìn)了 BERT 和 ToD-BERT 的性能。
4.2.3 對話動作預(yù)測
從表中可以看出,當(dāng)使用 10% 標(biāo)注數(shù)據(jù)時,BERT 和 ToD-BERT 的表現(xiàn)與它們的上界(Full)相似,ST 的改進(jìn)幅度有限;當(dāng)使用 1% 標(biāo)注數(shù)據(jù)時,在兩個較簡單的數(shù)據(jù)集(DSTC2, GSIM)和 MWOZ 的 macro-F1 上,ST 對于模型的提升更明顯。
4.2.4 回復(fù)選擇
從表中可以看出,ST 在 BERT 之上可以有更大的性能提升。
4.3 其他實驗
總結(jié)
本文提出的自訓(xùn)練方法和文本增強(qiáng)技術(shù)可以利用無標(biāo)注數(shù)據(jù)來訓(xùn)練任務(wù)型對話系統(tǒng),在小樣本場景下取得了很好的性能。自訓(xùn)練的方法一方面可以為未標(biāo)注數(shù)據(jù)打上偽標(biāo)簽,在很大程度上彌補(bǔ)了小樣本學(xué)習(xí)和全數(shù)據(jù)之間的差距;另一方面,自訓(xùn)練可能成為未來研究可擴(kuò)展的 ToD 系統(tǒng)的一種方式。
參考文獻(xiàn)
[1] Henderson M , I Vuli?, ?Gerz D , et al. Training Neural Response Selection for Task-Oriented Dialogue Systems[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.?
[2] Wu C S, Hoi S C H, Socher R, et al. TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 917-929.
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的EMNLP 2021 | ST-ToD:小样本场景下的任务型对话预训练的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 今日arXiv精选 | 11篇EMNLP
- 下一篇: 家用电器股票有哪些龙头股 板块大跌引来资