當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】如何利用BERT来做基于阅读理解的信息抽取

發布時間：2025/3/20 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】如何利用BERT来做基于阅读理解的信息抽取小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

信息抽取（Information Extraction: IE）是把文本里包含的信息進行結構化處理，變成計算機能夠處理的結構，實體抽取、關系抽取、事件抽取等都屬于信息抽取的范疇。在NLP領域，信息抽取的應用場景十分的廣泛，是一個非常重要的基礎任務。

作者&編輯 | 小Dream哥

1 傳統的信息抽取?

信息抽取是將非結構化的信息轉化為結構化信息的過程，可以分為三類：

命名實體識別（NER）：從文本中抽取人物、機構、文件名等實體。

關系抽取（RE）：得到實體后，抽取實體間的關系，一般抽取得到一個（實體，關系，實體）的三元組。

事件抽取：抽取多個實體和事件關系，一般得到一個trigger和多個arguments的多元組。

很多時候，信息抽取會包括上面的幾種，例如上面的三元組抽取，會包括實體抽取和關系抽取。傳統的做法包括pipline和joint方法：

pipline方法：先抽取實體再抽取關系，就像一個流水線一樣。這種方法容易在關系抽取時引入實體抽取時的誤差，從對整體效果造成不好的影響。

joint方法：即通過類似于端到端的方法，一次性抽取出實體和關系，避免誤差的累積。

但是上述兩種方法都無法處理一些復雜的問題，例如，“喬布斯在1977年至1983年擔任了蘋果公司的CEO，在1986年至1996年擔任皮克斯動畫工作室的CEO”。這里存在7個實體，相互間都有關系，非常復雜。傳統的信息抽取方法難以處理。

今天我們介紹基于閱讀理解的信息抽取，能夠較好的處理一些復雜的問題，特別是在抽取一些比較長的信息時，效果比較明顯。

2? 基于閱讀理解的信息抽取

先來回顧一下NLP中“機器閱讀理解”這個任務。機器閱讀理解是給定一段文本Paragraph和問題Question，得到答案Answer。通常假定Answer就包含在原文中，因此機器閱讀理解任務的目標就是得到一個span(start, end)，start表示Answer的開始字符在Paragraph中的位置，end表示Answer的結束字符在Paragraph中的位置。

在BERT出來之前，機器閱讀理解主要用LSTM等特征抽取分別對Paragraph和Question進行表征，抽取特征。再將二者的特征進行一些運算，得到相應的輸出表征。這里不做詳細的介紹，我們介紹今天的重點，利用BERT來做基于閱讀理解的信息抽取。

3 基于BERT的方案

如上圖所示，展示了如何用BERT來做信息抽取任務的結構圖。注意一下幾點即可：

1.將Question和Paragraph分別作為BERT的text1和text2輸入。

2.start/end span在Paragraph對應的輸出位置表示。

通常輸出會通過2個dense網絡，接到start輸出和end輸出序列。

假設Paragraph為“周杰倫出生于臺灣”，Question為“周杰倫出生于哪里？”，則laebl為：start[0,0,0,0,0,1,0]，end[0,0,0,0,0,0,1]。

將上述start輸出和end輸出序列接一個sigmod層，然后用binary_crossentropy函數即可進行訓練。

如果想要輸出一個Answer是否正確的概率，可用將[CLS]的輸出表征利用起來，非常的簡單。

總結

怎么樣？用BERT來處理問題，通常非常的直接和簡單，不需要接特別復雜的下游網絡就能夠取得不錯的效果。這是BERT的優勢，大巧不工。感興趣的同學可以自己實踐一下。

讀者們可以留言，或者加入我們的NLP群進行討論。感興趣的同學可以微信搜索jen104，備注"加入有三AI NLP群"。

下期預告：暫無

知識星球推薦

掃描上面的二維碼，就可以加入我們的星球，助你成長為一名合格的自然語言處理算法工程師。

知識星球主要有以下內容：

(1) 聊天機器人。考慮到聊天機器人是一個非常復雜的NLP應用場景，幾乎涵蓋了所有的NLP任務及應用。所以小Dream哥計劃以聊天機器人作為切入點，通過介紹聊天機器人的原理和實踐，逐步系統的更新到大部分NLP的知識，會包括語義匹配，文本分類，意圖識別，語義匹配命名實體識別、對話管理以及分詞等。

(2) 知識圖譜。知識圖譜對于NLP各項任務效果好壞的重要性，就好比基礎知識對于一個學生成績好壞的重要性。他是NLP最重要的基礎設施，目前各大公司都在著力打造知識圖譜，作為一個NLP工程師，必須要熟悉和了解他。

(3) NLP預訓練模型。基于海量數據，進行超大規模網絡的無監督預訓練。具體的任務再通過少量的樣本進行Fine-Tune。這樣模式是目前NLP領域最火熱的模式，很有可能引領NLP進入一個全新發展高度。你怎么不深入的了解？

轉載文章請后臺聯系

侵權必究

往期精選

【年終總結】2019年有三AI NLP做了什么，明年要做什么？
【通知】2019年言有三最后一月一對一師徒指導季劃報名，送書+知識星球+“神秘禮物”

總結

以上是生活随笔為你收集整理的【NLP】如何利用BERT来做基于阅读理解的信息抽取的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【杂谈】当前知识蒸馏与迁移学习有哪些可用
下一篇：【年终总结】2019年有三AI知识星球做