日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

COLING 2020 | CharBERT:字符敏感的预训练语言模型

發布時間:2024/10/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 COLING 2020 | CharBERT:字符敏感的预训练语言模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|張琨

學校|中國科學技術大學博士生

研究方向|自然語言處理

論文標題:

CharBERT: Character-aware Pre-trained Language Model

論文鏈接:

https://arxiv.org/abs/2011.01513

代碼鏈接:

https://github.com/wtma/CharBERT

動機

預訓練模型的利用已經成為當前自然語言處理的范式,使用預訓練模型處理輸出,然后在此基礎上根據具體任務進行調整。為了提升預訓練模型的效果,人們提出了很多改進的辦法,例如更好的 masking 方法,更大的 batch 等。但很少有工作關注于輸入的編碼,當前的 word piece 編碼方式 BPE 雖然能夠降低字典大小,同時緩解 OOV 問題,但仍然存在一些問題。

如下圖所示,首先 BPE 的方法無法表示完整詞的信息以及更細粒度的字符級別的信息,如下圖左邊所示,第一層和第三層的內容都沒有被表示出來,第二 BPE 的方法很容易受到攻擊,如果替換了輸入詞中的一個字符,那么切分出來 word piece 受到的影響就會比較大。為了解決 BPE 存在的這些問題,本文從輸入編碼的角度提出了 CharBERT,通過更全面的編碼方式和更好的融合方式提升預訓練模型的效果。


模型

下圖就是 CharBERT 模型的結構,為了更好的表示輸入詞,作者使用了一個雙路結構,然后充分 CNN,RNN 的優勢,最終實現了效果的提升,接下來,將對模型的技術細節進行分析

2.1 Character Encoding

除了對輸入句子使用原始 BERT embedding,作者還考慮字符級別的信息,同時為了考慮全局上下文信息,作者將整個句子的字符序列輸入到雙向 GRU 中,然后每個詞的表示就是這個詞的開頭和結尾信息的拼接,公式可以表示為如下形式

其中 是指第 i 個 token 的長度。通過這種形式最終得到用字符表示的每個詞的向量表示。

2.2 Heterogeneous Interaction

在得到兩種不同的 embedding 表示之后,作者提出了一種新的融合方式。具體而言,該方法首先通過 FFN 將兩種不同的 embedding 映射到同一空間,然后拼接起來,并在此基礎上使用 CNN 抽取局部特征,在得到局部特征之后,分別使用不同的 FFN 再映射會原來各自的空間,然后進行殘差鏈接,通過這樣的形式就進行了一次融合,具體過程如下:

這就完成了一次交互,然后再過 transformer,然后再進行交互,不斷重復該過程,實現對輸入的更好的建模。

2.3 Unsupervised Character Pre-training

除了模型結構上的增加,為了解決 BPE 比較脆弱的問題,作者也增加了一個非監督的字符級別預訓練,該過程可以用下圖表示:

原來的 MLM 預訓練任務保持,但同時作者考慮了一個 NLM(Noise Language Model),該任務針對的就是字符級別的表示,將原始輸入中的某些字符替換掉(包括丟掉,增加,交換),模型需要預測數來原始的輸入詞是什么,通過這種方式實現了更穩定的模型性能。

這里需要說明的是 MLM 和 NLM 是不交叉的,即如果某個詞被替換了某個字符,那么這個詞就不會被 mask 掉,保證了 MLM 任務的干凈。

以上就是整個方法的技術內容。

實驗

在實驗部分,作者使用了 BERT 和 RoBERTa 作為基本模型,English Wikipedia ?作為預訓練的語料集,下游測試任務為 SQuAD,Text Classification,Sequence Labeling。相關實驗結果如下:

當然作者還進行了一些模型健壯性,消融實驗和其他的一些實驗,用于支持文中提出的方法

總結

本文最突出的一個地方在于考慮了更好的 embedding 方法,而不是只使用 BPE 的結果,通過結合字符級別和詞級別的信息實現了更為全面的輸入編碼,同時,結合 RNN 和 CNN 的優勢也是本文的另一個亮點,基本上 CNN,RNN,Transformer 都使用上了,也體現了新老研究成果的結合在一定程度上能進一步提升方法的性能,可以認為是一個可行的研究方向。

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的COLING 2020 | CharBERT:字符敏感的预训练语言模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。