日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架

發布時間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:竇春柳,天津大學碩士。


鏈接:https://arxiv.org/pdf/1909.03227.pdf

動機

???? 首先作者提出了問題,傳統的關系抽取是不能很好的解決三元組重疊,如下圖。從圖中可以發現,傳統的關系抽取針對Normal 類型的數據還是可以的,但是針對EPO和SEO的情況就不理想。盡管像這樣的問題已經有人做了很多研究,但是仍然存在很多的問題,他們都把每個實體對的關系看作離散的,這樣導致會導致模型學習很困難,原因有兩點:第一點,數據分布不均衡,第二點, 針對重疊的標簽,如果在訓練數據很少的情況下,分類器很難去正確的分類。

亮點

本文采用全新的視角代替以往分類的視角,將關系建模為 S 到 O 的映射函數。提出一個全新的框架:CASREL。

概念及模型

CASREL框架抽取三元組(subject, relation, object)主要包含兩個步驟,三個部分。

兩個步驟

1、要識別出句子中的 subject 。

2、要根據識別出的 subject, 識別出所有有可能的 relation 以及對應的 object。

三個部分

1、BERT-based encoder module: 可以替換為不同的編碼框架,主要對句子中的詞進行編碼,論文最終以BERT為主,效果很強。

2、subject tagging module:目的是識別出句子中的 subject。

3、relation-specific object tagging module:根據 subject,尋找可能的 relation 和 object。

其中 a 是 Encoder, b 和 c 稱為 Cascade Decoder。

1)BERT Encoder

對句子編碼,獲取每個詞的隱層表示,可以采用 BERT 的任意一層,另外這部分是可以替換的,例如用LSTM替換BERT。

2)Subject Tagger

對 BERT Encoder 獲取到的詞的隱層表示解碼,構建兩個二分類分類器預測 subject 的 start 和 end 索引位置,對每一個詞計算其作為 start 和 end 的一個概率,并根據某個閾值,大于則標記為1,否則標記為0。公式如下:

如框架圖中所示,Jackie 被標記為 start,R 既不是 start 也不是 end, Brown 被標記為 end,其他的類似。在這里采用了最近匹配的原則,即與 jackie 最近的一個 end 詞是 Brown, 所以 Jackie R. Brown 被識別為一個subject。文中并未考慮前面位置的情況。

3)Relation-specific Object Taggers

這部分會同時識別出subject的relation和相關的object。

解碼的時候比 Subject Tagger 不僅僅考慮了 BERT 編碼的隱層向量, 還考慮了識別出來的 subject 特征,即下圖。vsub 代表 subject 特征向量,若存在多個詞,將其取向量平均,hn 代表 BERT 編碼向量。

對于識別出來的每一個 subject, 對應的每一種關系會解碼出其 object 的 start 和 end 索引位置,與 Subject Tagger 類似,公式如下:

理論分析

實驗

驗證CASREL框架效果采用的是兩個公開的數據集,NYT 和 WebNLG。具體的實驗效果如下。

其中 CASREL 分別采用了 隨機初始化參數的BERT編碼端、 LSTM 編碼端以及預訓練 BERT 編碼端,實驗結果主要說明以下結論:

1、CASREL 框架確實有效,三種編碼結構的效果都是要遠高于其他的模型性能。

2、采用預訓練 BERT 之后,CASREL 框架更是逆天。

總結

本文為了解決三元組重疊的情況,提出了新的關系抽取的方法,cascade binary taging framework(CasRel),和傳統的關系抽取不同,傳統的關系抽取是通過兩個實體來抽取(離散的)關系標簽,但在這里通過CasRel框架來抽取實體及實體間的關系,最終效果得到了很大的提升。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。