日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识库的类型实体和关系的联合抽取

發(fā)布時間:2024/7/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于知识库的类型实体和关系的联合抽取 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

鏈接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf

GitHub項目地址:https://github.com/INK-USC/DS-RelationExtraction

動機

現(xiàn)有的利用遠(yuǎn)程監(jiān)督進行實體關(guān)系抽取的方法中存在以下三個問題:

1、依賴事先訓(xùn)練的命名實體識別工具,而這些工具往往只能識別出少量特定類型的實體,從而限制了領(lǐng)域的擴展;

2、現(xiàn)有方法通常將實體識別和關(guān)系抽取分開進行,從而容易造成錯誤的累積。

3、在通過遠(yuǎn)程監(jiān)督方式生成的訓(xùn)練數(shù)據(jù)中,含有大量的噪音數(shù)據(jù),因為其在實體和關(guān)系的鏈接過程中均沒有考慮到上下文關(guān)系。

貢獻

該篇論文的主要貢獻分為以下四點:

1、提出了一個新的利用遠(yuǎn)程監(jiān)督進行實體關(guān)系抽取的框架CoType。

2、提出了一種領(lǐng)域無關(guān)的文本分割算法,用來進行文本中 entity mentions 的識別。

3、提出了一個聯(lián)合嵌入目標(biāo)函數(shù),用來形式化建模mention-type之間的關(guān)聯(lián)、mention-feature之間的共現(xiàn)關(guān)系、entity-relation之間的交叉約束關(guān)系。

4、在三個公開數(shù)據(jù)集上取得了state-of-the-art的效果。

問題定義

給定一個POS標(biāo)注的語料庫D,一個知識庫Ψ,一個目標(biāo)實體類型集合,一個目標(biāo)關(guān)系類型集合,聯(lián)合抽取的目標(biāo)就是(1)從語料庫D中識別出entity mentions M;(2)利用知識庫Ψ生成訓(xùn)練數(shù)據(jù);(3)利用和上下文,預(yù)測每一個relation mentions的關(guān)系類型,以及 entity mentions的實體類型。

方法

模型框架圖如下圖所示,其方法主要分為四個部分:

1、使用文章中提出的 POS 約束的文本分割算法對POS標(biāo)注的語料庫D進行實體識別,識別出 entity mentions M。

2、從M中生成候選 relation mentions Z,并對每一個 relation mention 進行文本特征抽取,抽取的文本特征見下文。

3、通過聯(lián)合嵌入,將 entity mentions、relation mentions、文本特征、實體關(guān)系類型嵌入到兩個空間中去(實體空間以及關(guān)系空間),使得在每一個空間中,距離比較近的object擁有比較近的類型。

4、通過學(xué)習(xí)好之后的嵌入空間,評估測試集中每一個 relation mention 的關(guān)系類型以及每一個entity mention m 的實體類型。

1、????Entity Mention 抽取

文章提出了一種領(lǐng)域無關(guān)的文本分割算法,他的方法是通過計算切片質(zhì)量函數(shù)來衡量這個片段是一個entity mention的概率,該切片質(zhì)量函數(shù)由短語質(zhì)量和POSpattern質(zhì)量組成,并利用 D_L 數(shù)據(jù)來訓(xùn)練該模型的參數(shù)。

其工作流程主要分為以下四步:

  • 從語料庫 D 中挖掘頻繁共同模板,包括短語模板和詞性模板,并通過設(shè)置閾值的方式,進行模板的初步篩選。

  • 從語料級別的一致性和句子級別的詞性特征抽取特征訓(xùn)練兩個隨機森林分類模型,用于評估候選的短語模板和詞性模板的分值。

  • 根據(jù)目前的特征權(quán)重參數(shù),找到切片質(zhì)量函數(shù)得分最高的片段切割方式。

  • 計算修正特征,更正參數(shù),不斷迭代2-4步,直到收斂。

  • 切片評估函數(shù)如下:

    2、????Relation Mention 抽取

    方法如下,對于來自一個句子s的實體對 (m_a,m_b),構(gòu)建兩個候選relation mentions z_1=(m_a,m_b,s) 和 z_2=(m_b,m_a,s)。在抽取30%無法鏈接到KB的relation mentions作為反例(None relationlabel),抽取30%無法鏈接的entitymentions建模None entity label。然后對relationmention 進行文本特征抽取,文本特征如下。

    3、????實體和關(guān)系的聯(lián)合嵌入

    該部分方法主要包含三個部分:

  • 通過一個margin-base的loss函數(shù)來建模由噪音的mention-type之間的關(guān)系。

  • 通過一個second-order proximity idea來建模mention-feature之間的貢獻。

  • 通過translation based embedding loss思想來建模實體-關(guān)系之間的約束關(guān)系。

  • 3.1建模Relation Mentions

    假設(shè)1:對于兩個relation mentions,如果他們共享的文本特征越多,那么他們則更可能具有相似的類別,即在低維空間中比較接近,反之亦然。

    形式化的說,文章應(yīng)用second-orderproximity來建模該假設(shè)。

    z_i 表示relation mention向量,c_j 表示文本特征向量。p(f_j |z_i) 表示由 z_i 生成 c_j 的概率。w_ij 表示語料庫 D 中 (z_i,c_j) 的共現(xiàn)頻率。

    在基于遠(yuǎn)程監(jiān)督生成的訓(xùn)練數(shù)據(jù)中,一個 relation mention 對應(yīng)多個候選關(guān)系類型,基于假設(shè)1,可能會產(chǎn)生不同類型的mention具有相似的低維向量表示。因此需要將relation mention和它候選的標(biāo)簽之間關(guān)系是否是真的加入到模型之中,從而提出了假設(shè)2。

    假設(shè)2:一個relation mention在低維空間中應(yīng)該同它最可能的候選類型比較接近。

    形式化定義如下,

    Φ(z_i,r' )表示relation 和關(guān)系 r' 之間的點積。

    最終,建模relation mentions的目標(biāo)函數(shù)如下所示:

    3.2 建模Entity Mentions

    Entity Mentions 建模過程如 Relation Mentions 幾乎相同,其目標(biāo)函數(shù)如下。

    3.3 建模Entity和Relation之間的交互

    假設(shè)3:對于一個relation mention z={m1,m2,s},m1的嵌入向量應(yīng)該近似于m2的嵌入向量加上z的詞嵌入向量。

    形式化如下所示,

    4、????聯(lián)合優(yōu)化問題

    將上訴三個損失函相加,求他們的最小值。

    文章中使用了次梯度方法來求解該聯(lián)合優(yōu)化問題,算法如下圖所示。


    5、????模型推斷

    在進行推斷的過程中,對于關(guān)系類別,采用最近鄰的方式查找,對于實體的類別,采用自頂向下的方式查找。在查找的過程中,利用特征來表示mention,計算mention的嵌入向量同實體類別和關(guān)系類別的相似度即可。

    實驗

    作者在NYT、Wiki-KBP、BioInfer三個數(shù)據(jù)集上,對實體類型識別、關(guān)系分類、關(guān)系抽取三個任務(wù)進行了實驗,取得了比較好的結(jié)果。

    ?

    (1)數(shù)據(jù)集

    (2)實驗結(jié)果

    總結(jié)

    文本提出了一種領(lǐng)域無關(guān)的利用知識庫通過遠(yuǎn)程監(jiān)督方式進行關(guān)系抽取的模型框架,包括了一種領(lǐng)域無關(guān)的文本分割算法用于識別實體,一個聯(lián)合嵌入目標(biāo)函數(shù)用來形式化建模 mention-type之間的關(guān)聯(lián)、mention-feature之間的共現(xiàn)關(guān)系、entity-relation 之間的交叉約束關(guān)系。

    ?

    論文筆記整理:王狄烽,南京大學(xué)碩士,研究方向為知識圖譜、知識獲取。



    OpenKG.CN


    中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

    轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請注明原標(biāo)題。

    ?

    點擊閱讀原文,進入 OpenKG 博客。

    創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

    總結(jié)

    以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的类型实体和关系的联合抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。