日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何兼容自训练与预训练:更高效的半监督文本分类模型

發布時間:2024/10/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何兼容自训练与预训练:更高效的半监督文本分类模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文標題:

Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining

論文作者:

Zijun Sun, Chun Fan, Xiaofei Sun, Yuxian Meng, Fei Wu, Jiwei Li

論文鏈接:

https://arxiv.org/pdf/2011.08626.pdf

代碼鏈接:

https://github.com/ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification


概述

半監督學習是綜合利用標注數據與未標注數據的學習方法。近日,香儂科技研究了如何更有效地結合半監督自訓練和預訓練,即如何在大規模通用領域預訓練的前提下,更好地利用大規模領域內無標注語料與標注語料,從而最大限度地提升模型效果。

這涉及到一系列問題:

  • 在大規模通用語料下訓練的模型是否仍然需要在上訓練?

  • 如何利用?是像BERT一樣預訓練,還是用偽標簽的自訓練方法?

  • 在不同的和條件下,不同的訓練方式會有怎樣的結果差異?

通過在文本分類任務上的實驗,我們發現:

  • 如果有領域內語料,那么模型就不需要再在通用領域語料上預訓練;

  • 無論是采用預訓練的方式還是自訓練的方式,都可以顯著提升模型效果;

  • 當領域內標注數據較小的時候,在偽平行數據上訓練、再在上微調的方法可以提升更多的效果;當更大的時候,在和上聯合訓練取得的效果更好。

但無論如何,不管以怎樣的方式去預訓練自訓練,我們都能取得顯著更好的文本分類效果,尤其是在小樣本的條件下,如在IMDB數據集上,通過有效結合預訓練和自訓練,僅使用50個標注樣本就可以達到93.8%的準確率

更重要的是,本文對大規模通用預訓練下的半監督自訓練與預訓練進行的探索,有助于啟發之后在自然語言處理其他領域上,在不同數據條件下、領域條件下設計更高效的半監督學習方法。

不同的預訓練/自訓練模型

首先,我們將介紹不同的模型訓練策略,以研究它們在不同條件下的表現。記是領域內的標注數據,是數據集大小。是領域內的無標注數據,大小為。下面考慮如何利用數據集。

領域內預訓練(In-domain Pretraining)

由于是無標注數據,所以一個直接的想法是像BERT那樣用掩碼預測的方式去做預訓練。在上預訓練之后,就可以在上微調,用得到的模型進行推理即可。

在用預訓練的時候,可以基于一個隨機初始化的模型,也可以基于已經在通用語料上預訓練的模型,如BERT、RoBERTa等等。我們將在實驗部分探究它們的影響。

偽標簽自訓練(Pseudo-label Self-Training)

除了直接像BERT一樣預訓練之外,還可以用自訓練的方式去使用。首先在上訓練一個Teacher模型,然后用它去標注(的一部分),得到一個偽平行數據集,其大小記為,最后再用一個Student模型,在和/或上訓練。同領域內預訓練,Student模型可以是隨機初始化的,也可以是已經預訓練的。

現在要考慮的問題是:(1)如何構建;(2)如何用和訓練Student模型。

構建

我們采取兩種方法構建:

  • ,即把中的所有數據都當成訓練數據去做標注,然而這種方法容易引入過多噪音;

  • Top-K:只選取對每一類所得概率最高top-K個樣本作為,這樣就只考慮Teacher模型最有信心的數據。

訓練Student模型

在得到了后,將與原有的一起參與訓練Student模型。我們有下述訓練方法:

  • Training on?,記為:Student直接在上訓練,然后用于推理。這種方法的缺點在于中的干凈數據可能會被稀釋。

  • Training on??and Fine-tuning on?,記為:Student首先在上訓練,然后在上微調,從而避免第一種方法的稀釋問題。

  • Training on??and Fine-tuning on?,記為:Student先在上訓練,然后再在上微調,這可以在訓練階段更多地利用。

  • Iterative Training:上述過程可以迭代進行,即在訓練好Student之后,把它當成新的Teacher,然后構建新的,訓練新的Student。這個過程重復次。

實驗

在本節中我們將探究上述構建方法、Student訓練方法會有怎樣的表現差異。我們考慮兩個不同的領域:

  • 電影:領域內標注數據集是IMDB Dataset,領域內未標注數據集是3.4M個來自IMDB的影評。為了探究不同數據量情況下的模型效果,我們分別用的10, 20, 50, 100, 1K, 5K, 25K進行實驗。

  • 垃圾郵件分類:領域內標注數據集包含800個訓練樣本與800個測試樣本,領域內未標注包含1M個樣本。

模型使用RoBERTa_small和RoBERTa_large兩種,作為比較,我們還使用了BiLSTM模型。其他實驗設置詳見原文。

Teacher模型的表現與領域內預訓練結果

下圖是不同的Teacher訓練方法在IMDB和Spam上的結果。Open-domain是在大規模通用語料上預訓練(也就是已經預訓練好的RoBERTa),In-domain是在上預訓練,所有的模型最后都要在上微調。

從結果可以看到,BiLSTM效果最差是在意料之中,其實是只用Open-domain的RoBERTa。令人驚訝的是,In-domain的效果幾乎和Open-domain+In-domain完全一致,這說明:當有足夠量的領域內未標注數據時,通用領域預訓練是沒有必要的。

從上圖中我們還可以觀察到一個有趣的現象:當領域內標注數據很小的時候,領域內預訓練可以顯著提升最終的結果。換句話說:領域內預訓練可以取得更好的小樣本學習效果

領域內預訓練的影響

但是,上述結論有一個前提:領域內未標注數據足夠大。那么,不同的對最終結果有怎樣的影響呢?

如下圖所示,當的時候,領域內預訓練和呈現出明顯的正相關關系。

很小的時候,效果差于開放領域預訓練,當足夠大的時候,領域內預訓練就超過了開放領域預訓練。這說明:領域內未標注數據的大小對最終結果影響極大,總的趨勢是越多越好

自訓練結果

上面我們探究了在不同模型、數據情況下領域內預訓練的結果,下面我們繼續來探究自訓練方法的效果。結果如下表所示,從表中我們可以觀察到:

  • 幾乎在所有的與下,和始終優于;

  • 模型效果隨著的增加而增大,當到一定的大小時,增長趨于緩慢;

  • 當較小的時候,表現更好,當較大的時候,表現更好。這是因為當小的時候,模型在上的稀釋問題更加嚴重,需要再用上的微調“矯正”;而大的時候,Teacher模型的預測大部分都是正確的,也即中的噪音減少,如果再在上微調,就會稀釋中的“干凈樣本”。

那么,的大小、的大小會對最終結果有怎樣的影響呢?下圖是不同的(第一行)與不同的(第二行)對結果的影響。

從第一行可以看到,當比較小的時候,和會有比較好的效果;而當比較大的時候,四個方法的結果都差不多。

從第二行可以看到,當比較小的時候,表現最好,并且隨著的增大效果先提升后降低。

這是因為此時當持續增大到一定程度之后,Teacher模型得到的不確定樣本就會更多,引入了更多噪聲,Student模型的效果就會受到影響。

相反,當足夠大的時候,的影響就占據主導,此時增大就不會有損效果。

迭代訓練結果

下圖是不同的迭代訓練的結果。顯然,無論迭代多少次,的大小直接決定了模型的效果。從趨勢來講,都是隨著迭代次數的增加效果變好,但當超過一定迭代次數后(N=2),效果就不再變化了。

結合領域內預訓練和自訓練

上面我們分別考察了領域內預訓練和自訓練的結果,這二者是否可以結合起來進一步提升效果呢?答案是肯定的,而且我們已經在論文自訓練 + 預訓練 = 更好的自然語言理解模型講解中闡述了這一點。

下表是結合二者的得到結果。無論是RoBERTa_small還是RoBERTa_large,在領域內預訓練的基礎上再次使用自訓練,就可以顯著提升效果,分別提升了+0.5與+0.4,相比Open-domain pretraining提升了+1.1和+1.0。

小結

在這篇文章中,我們綜合分析了文本分類任務下不同預訓練和自訓練方法對結果的影響,通過大量的實驗得到了下面三個主要結論:

  • 足量的領域內語料使模型不需要再在通用領域語料上預訓練;

  • 無論是采用預訓練的方式還是自訓練的方式,都可以顯著提升模型效果,二者結合可以得到最佳結果;

  • 當領域內標注數據較小的時候,在偽平行數據上訓練、再在上微調的方法可以提升更多的效果;當更大的時候,在上聯合訓練取得的效果更好。

我們發現,預訓練和自訓練相結合尤其可以在小樣本場景下取得突出效果,在IMDB數據集上,僅用50個標注樣本就可以實現93.8%的準確率。我們希望本文可以為今后NLP領域更高效的半監督學習方法提供啟發。

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的如何兼容自训练与预训练:更高效的半监督文本分类模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。