论文浅尝 | 基于知识库的类型实体和关系的联合抽取
鏈接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf
GitHub項目地址:https://github.com/INK-USC/DS-RelationExtraction
動機
現(xiàn)有的利用遠(yuǎn)程監(jiān)督進行實體關(guān)系抽取的方法中存在以下三個問題:
1、依賴事先訓(xùn)練的命名實體識別工具,而這些工具往往只能識別出少量特定類型的實體,從而限制了領(lǐng)域的擴展;
2、現(xiàn)有方法通常將實體識別和關(guān)系抽取分開進行,從而容易造成錯誤的累積。
3、在通過遠(yuǎn)程監(jiān)督方式生成的訓(xùn)練數(shù)據(jù)中,含有大量的噪音數(shù)據(jù),因為其在實體和關(guān)系的鏈接過程中均沒有考慮到上下文關(guān)系。
貢獻
該篇論文的主要貢獻分為以下四點:
1、提出了一個新的利用遠(yuǎn)程監(jiān)督進行實體關(guān)系抽取的框架CoType。
2、提出了一種領(lǐng)域無關(guān)的文本分割算法,用來進行文本中 entity mentions 的識別。
3、提出了一個聯(lián)合嵌入目標(biāo)函數(shù),用來形式化建模mention-type之間的關(guān)聯(lián)、mention-feature之間的共現(xiàn)關(guān)系、entity-relation之間的交叉約束關(guān)系。
4、在三個公開數(shù)據(jù)集上取得了state-of-the-art的效果。
問題定義
給定一個POS標(biāo)注的語料庫D,一個知識庫Ψ,一個目標(biāo)實體類型集合,一個目標(biāo)關(guān)系類型集合,聯(lián)合抽取的目標(biāo)就是(1)從語料庫D中識別出entity mentions M;(2)利用知識庫Ψ生成訓(xùn)練數(shù)據(jù);(3)利用和上下文,預(yù)測每一個relation mentions的關(guān)系類型,以及 entity mentions的實體類型。
方法
模型框架圖如下圖所示,其方法主要分為四個部分:
1、使用文章中提出的 POS 約束的文本分割算法對POS標(biāo)注的語料庫D進行實體識別,識別出 entity mentions M。
2、從M中生成候選 relation mentions Z,并對每一個 relation mention 進行文本特征抽取,抽取的文本特征見下文。
3、通過聯(lián)合嵌入,將 entity mentions、relation mentions、文本特征、實體關(guān)系類型嵌入到兩個空間中去(實體空間以及關(guān)系空間),使得在每一個空間中,距離比較近的object擁有比較近的類型。
4、通過學(xué)習(xí)好之后的嵌入空間,評估測試集中每一個 relation mention 的關(guān)系類型以及每一個entity mention m 的實體類型。
1、????Entity Mention 抽取
文章提出了一種領(lǐng)域無關(guān)的文本分割算法,他的方法是通過計算切片質(zhì)量函數(shù)來衡量這個片段是一個entity mention的概率,該切片質(zhì)量函數(shù)由短語質(zhì)量和POSpattern質(zhì)量組成,并利用 D_L 數(shù)據(jù)來訓(xùn)練該模型的參數(shù)。
其工作流程主要分為以下四步:
從語料庫 D 中挖掘頻繁共同模板,包括短語模板和詞性模板,并通過設(shè)置閾值的方式,進行模板的初步篩選。
從語料級別的一致性和句子級別的詞性特征抽取特征訓(xùn)練兩個隨機森林分類模型,用于評估候選的短語模板和詞性模板的分值。
根據(jù)目前的特征權(quán)重參數(shù),找到切片質(zhì)量函數(shù)得分最高的片段切割方式。
計算修正特征,更正參數(shù),不斷迭代2-4步,直到收斂。
切片評估函數(shù)如下:
2、????Relation Mention 抽取
方法如下,對于來自一個句子s的實體對 (m_a,m_b),構(gòu)建兩個候選relation mentions z_1=(m_a,m_b,s) 和 z_2=(m_b,m_a,s)。在抽取30%無法鏈接到KB的relation mentions作為反例(None relationlabel),抽取30%無法鏈接的entitymentions建模None entity label。然后對relationmention 進行文本特征抽取,文本特征如下。
3、????實體和關(guān)系的聯(lián)合嵌入
該部分方法主要包含三個部分:
通過一個margin-base的loss函數(shù)來建模由噪音的mention-type之間的關(guān)系。
通過一個second-order proximity idea來建模mention-feature之間的貢獻。
通過translation based embedding loss思想來建模實體-關(guān)系之間的約束關(guān)系。
3.1建模Relation Mentions
假設(shè)1:對于兩個relation mentions,如果他們共享的文本特征越多,那么他們則更可能具有相似的類別,即在低維空間中比較接近,反之亦然。
形式化的說,文章應(yīng)用second-orderproximity來建模該假設(shè)。
z_i 表示relation mention向量,c_j 表示文本特征向量。p(f_j |z_i) 表示由 z_i 生成 c_j 的概率。w_ij 表示語料庫 D 中 (z_i,c_j) 的共現(xiàn)頻率。
在基于遠(yuǎn)程監(jiān)督生成的訓(xùn)練數(shù)據(jù)中,一個 relation mention 對應(yīng)多個候選關(guān)系類型,基于假設(shè)1,可能會產(chǎn)生不同類型的mention具有相似的低維向量表示。因此需要將relation mention和它候選的標(biāo)簽之間關(guān)系是否是真的加入到模型之中,從而提出了假設(shè)2。
假設(shè)2:一個relation mention在低維空間中應(yīng)該同它最可能的候選類型比較接近。
形式化定義如下,
Φ(z_i,r' )表示relation 和關(guān)系 r' 之間的點積。
最終,建模relation mentions的目標(biāo)函數(shù)如下所示:
3.2 建模Entity Mentions
Entity Mentions 建模過程如 Relation Mentions 幾乎相同,其目標(biāo)函數(shù)如下。
3.3 建模Entity和Relation之間的交互
假設(shè)3:對于一個relation mention z={m1,m2,s},m1的嵌入向量應(yīng)該近似于m2的嵌入向量加上z的詞嵌入向量。
形式化如下所示,
4、????聯(lián)合優(yōu)化問題
將上訴三個損失函相加,求他們的最小值。
文章中使用了次梯度方法來求解該聯(lián)合優(yōu)化問題,算法如下圖所示。
5、????模型推斷
在進行推斷的過程中,對于關(guān)系類別,采用最近鄰的方式查找,對于實體的類別,采用自頂向下的方式查找。在查找的過程中,利用特征來表示mention,計算mention的嵌入向量同實體類別和關(guān)系類別的相似度即可。
實驗
作者在NYT、Wiki-KBP、BioInfer三個數(shù)據(jù)集上,對實體類型識別、關(guān)系分類、關(guān)系抽取三個任務(wù)進行了實驗,取得了比較好的結(jié)果。
?
(1)數(shù)據(jù)集
(2)實驗結(jié)果
總結(jié)
文本提出了一種領(lǐng)域無關(guān)的利用知識庫通過遠(yuǎn)程監(jiān)督方式進行關(guān)系抽取的模型框架,包括了一種領(lǐng)域無關(guān)的文本分割算法用于識別實體,一個聯(lián)合嵌入目標(biāo)函數(shù)用來形式化建模 mention-type之間的關(guān)聯(lián)、mention-feature之間的共現(xiàn)關(guān)系、entity-relation 之間的交叉約束關(guān)系。
?
論文筆記整理:王狄烽,南京大學(xué)碩士,研究方向為知識圖譜、知識獲取。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請注明原標(biāo)題。
?
點擊閱讀原文,進入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的类型实体和关系的联合抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 征稿 | “健康知识图谱”投稿通道开启
- 下一篇: 论文浅尝 - ACL2020 | Seg