當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱最新权威综述论文解读：实体发现

發(fā)布時(shí)間：2024/7/5 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了知识图谱最新权威综述论文解读：实体发现小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

上期我們介紹了2020年知識(shí)圖譜最新權(quán)威綜述論文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知識(shí)圖譜補(bǔ)全部分，本期我們將一起學(xué)習(xí)這篇論文的實(shí)體發(fā)現(xiàn)部分。

論文地址：

https://arxiv.org/pdf/2002.00388.pdf?arxiv.org

1 實(shí)體發(fā)現(xiàn)

本節(jié)將基于實(shí)體的知識(shí)獲取區(qū)分為若干細(xì)分任務(wù)，即實(shí)體識(shí)別，實(shí)體消歧、實(shí)體類型和實(shí)體對(duì)齊。我們稱它們?yōu)閷?shí)體發(fā)現(xiàn)，因?yàn)樗鼈兌荚诓煌募舷绿剿鲗?shí)體相關(guān)的知識(shí)。

1.1 實(shí)體識(shí)別

實(shí)體識(shí)別或命名實(shí)體識(shí)別（NER）是一種在文本中標(biāo)記實(shí)體的任務(wù)，當(dāng)它關(guān)注于特定的命名實(shí)體時(shí)。手工制作的特征，如大寫模式和特定語言資源，如地名錄，在許多文獻(xiàn)中都有應(yīng)用。最近的工作利用squence-to-squence結(jié)構(gòu)，例如，LSTM-CNN用于學(xué)習(xí)字符級(jí)和單詞級(jí)特征以及編碼部分詞匯匹配。Lample等人通過疊加LSTM層和CRF層，即LSTM-CRF和Stack-LSTM。近年來，MGNER提出了一個(gè)集成框架，該框架具有不同粒度的實(shí)體位置檢測(cè)和對(duì)嵌套和非重疊命名實(shí)體的基于注意力機(jī)制的實(shí)體分類。

1.2 實(shí)體分類

實(shí)體分類包括粗粒度分類和細(xì)粒度分類，而后者使用樹結(jié)構(gòu)的類型類別，通常被視為多類別和多標(biāo)簽分類。為了減少標(biāo)簽噪聲，PLE著重于正確的類型識(shí)別，提出了一種基于異質(zhì)圖的部分標(biāo)簽嵌入模型，用于表示實(shí)體提及、文本特征和實(shí)體類型及其關(guān)系。為了解決日益增長的類型集和噪聲標(biāo)簽，Ma等人提出了一種基于原型驅(qū)動(dòng)的分層信息標(biāo)簽嵌入方法用于zero-shot細(xì)粒度命名實(shí)體分類。

1.3 實(shí)體消歧

實(shí)體消歧或?qū)嶓w鏈接是一個(gè)統(tǒng)一的任務(wù)，它將提及的實(shí)體和知識(shí)圖譜中的相應(yīng)實(shí)體鏈接起來。例如，愛因斯坦在1921年獲得諾貝爾物理學(xué)獎(jiǎng)。這句話中的實(shí)體提及“愛因斯坦”應(yīng)該與知識(shí)圖譜中的實(shí)體愛因斯坦聯(lián)系起來。目前流行的端到端學(xué)習(xí)方法都是通過實(shí)體的表示學(xué)習(xí)來實(shí)現(xiàn)的，例如DSRM用于實(shí)體語義關(guān)系的建模，EDKate用于實(shí)體和文本的聯(lián)合嵌入。Ganea和Hofmann提出了一種基于局部上下文窗口的注意力神經(jīng)模型，用于實(shí)體表示學(xué)習(xí)和模糊實(shí)體的可微消息傳遞。Le和Titov將實(shí)體之間的關(guān)系視為潛在變量，開發(fā)了一個(gè)端到端的神經(jīng)架構(gòu)，具有關(guān)系和mention-wise的規(guī)范化。

1.4 實(shí)體對(duì)齊

前面提到的任務(wù)涉及到從文本或單個(gè)知識(shí)圖譜中發(fā)現(xiàn)實(shí)體，而實(shí)體對(duì)齊旨在融合異構(gòu)知識(shí)圖譜中的知識(shí)。給定E1和E2為兩個(gè)不同知識(shí)圖譜的兩個(gè)不同實(shí)體集，實(shí)體對(duì)其是尋找一個(gè)對(duì)齊集

其中實(shí)體e1和實(shí)體e2具有等價(jià)關(guān)系。在實(shí)際中，如下圖的左框所示，給出一個(gè)對(duì)齊種子的小集合（即，出現(xiàn)在不同的知識(shí)圖譜中的同義實(shí)體）以開始對(duì)齊處理過程。

基于嵌入表示的對(duì)齊需要計(jì)算一對(duì)實(shí)體的嵌入表示之間的相似性。IPTransE在一個(gè)聯(lián)合嵌入框架下將實(shí)體投影到一個(gè)統(tǒng)一的表示空間中，包括通過對(duì)齊的翻譯模型：

線性變換模型：

參數(shù)共享：

為了解決迭代對(duì)齊中的誤差積累問題，BootEA提出了一種增量學(xué)習(xí)的bootstrapping方法，以及一種用于檢查新標(biāo)記對(duì)齊的編輯技術(shù)。

實(shí)體的附加信息也可以被利用起來，例如，JAPE捕捉跨語言屬性之間的相關(guān)性，KDCoE通過共同訓(xùn)練嵌入多語言實(shí)體描述，MultiKE學(xué)習(xí)實(shí)體名稱、關(guān)系和屬性的多個(gè)視圖，與字符屬性嵌入對(duì)齊。

往期精選：

知識(shí)圖譜最新權(quán)威綜述論文解讀：知識(shí)圖譜補(bǔ)全部分

對(duì)知識(shí)圖譜的告白：斯坦福大學(xué)CS520課程介紹

知識(shí)圖譜最新權(quán)威綜述論文解讀：知識(shí)表示學(xué)習(xí)部分

知識(shí)圖譜最新權(quán)威綜述論文解讀：開篇部分

手把手教你搭建一個(gè)中式菜譜知識(shí)圖譜可視化系統(tǒng)

后期，我們還會(huì)對(duì)這篇綜述的其它部分進(jìn)行解讀。

如果對(duì)文章感興趣歡迎關(guān)注知乎專欄“人工智能遇上知識(shí)圖譜“，也歡迎關(guān)注同名微信公眾號(hào)“人工智能遇上知識(shí)圖譜”，讓我們一起學(xué)習(xí)并交流討論人工智能與知識(shí)圖譜技術(shù)。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

總結(jié)

以上是生活随笔為你收集整理的知识图谱最新权威综述论文解读：实体发现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。