论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架
論文筆記整理:竇春柳,天津大學碩士。
鏈接:https://arxiv.org/pdf/1909.03227.pdf
動機
???? 首先作者提出了問題,傳統的關系抽取是不能很好的解決三元組重疊,如下圖。從圖中可以發現,傳統的關系抽取針對Normal 類型的數據還是可以的,但是針對EPO和SEO的情況就不理想。盡管像這樣的問題已經有人做了很多研究,但是仍然存在很多的問題,他們都把每個實體對的關系看作離散的,這樣導致會導致模型學習很困難,原因有兩點:第一點,數據分布不均衡,第二點, 針對重疊的標簽,如果在訓練數據很少的情況下,分類器很難去正確的分類。
亮點
本文采用全新的視角代替以往分類的視角,將關系建模為 S 到 O 的映射函數。提出一個全新的框架:CASREL。
概念及模型
CASREL框架抽取三元組(subject, relation, object)主要包含兩個步驟,三個部分。
兩個步驟
1、要識別出句子中的 subject 。
2、要根據識別出的 subject, 識別出所有有可能的 relation 以及對應的 object。
三個部分
1、BERT-based encoder module: 可以替換為不同的編碼框架,主要對句子中的詞進行編碼,論文最終以BERT為主,效果很強。
2、subject tagging module:目的是識別出句子中的 subject。
3、relation-specific object tagging module:根據 subject,尋找可能的 relation 和 object。
其中 a 是 Encoder, b 和 c 稱為 Cascade Decoder。
1)BERT Encoder
對句子編碼,獲取每個詞的隱層表示,可以采用 BERT 的任意一層,另外這部分是可以替換的,例如用LSTM替換BERT。
2)Subject Tagger
對 BERT Encoder 獲取到的詞的隱層表示解碼,構建兩個二分類分類器預測 subject 的 start 和 end 索引位置,對每一個詞計算其作為 start 和 end 的一個概率,并根據某個閾值,大于則標記為1,否則標記為0。公式如下:
如框架圖中所示,Jackie 被標記為 start,R 既不是 start 也不是 end, Brown 被標記為 end,其他的類似。在這里采用了最近匹配的原則,即與 jackie 最近的一個 end 詞是 Brown, 所以 Jackie R. Brown 被識別為一個subject。文中并未考慮前面位置的情況。
3)Relation-specific Object Taggers
這部分會同時識別出subject的relation和相關的object。
解碼的時候比 Subject Tagger 不僅僅考慮了 BERT 編碼的隱層向量, 還考慮了識別出來的 subject 特征,即下圖。vsub 代表 subject 特征向量,若存在多個詞,將其取向量平均,hn 代表 BERT 編碼向量。
對于識別出來的每一個 subject, 對應的每一種關系會解碼出其 object 的 start 和 end 索引位置,與 Subject Tagger 類似,公式如下:
理論分析
實驗
驗證CASREL框架效果采用的是兩個公開的數據集,NYT 和 WebNLG。具體的實驗效果如下。
其中 CASREL 分別采用了 隨機初始化參數的BERT編碼端、 LSTM 編碼端以及預訓練 BERT 編碼端,實驗結果主要說明以下結論:
1、CASREL 框架確實有效,三種編碼結構的效果都是要遠高于其他的模型性能。
2、采用預訓練 BERT 之后,CASREL 框架更是逆天。
總結
本文為了解決三元組重疊的情況,提出了新的關系抽取的方法,cascade binary taging framework(CasRel),和傳統的關系抽取不同,傳統的關系抽取是通過兩個實體來抽取(離散的)關系標簽,但在這里通過CasRel框架來抽取實體及實體間的關系,最終效果得到了很大的提升。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 参会邀请 - ISWC2020 | 第十
- 下一篇: 论文浅尝 | 基于Universal S