知识图谱最新权威综述论文解读:实体发现
上期我們介紹了2020年知識(shí)圖譜最新權(quán)威綜述論文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知識(shí)圖譜補(bǔ)全部分,本期我們將一起學(xué)習(xí)這篇論文的實(shí)體發(fā)現(xiàn)部分。
論文地址:
https://arxiv.org/pdf/2002.00388.pdf?arxiv.org
?
?
1 實(shí)體發(fā)現(xiàn)
本節(jié)將基于實(shí)體的知識(shí)獲取區(qū)分為若干細(xì)分任務(wù),即實(shí)體識(shí)別,實(shí)體消歧、實(shí)體類型和實(shí)體對(duì)齊。我們稱它們?yōu)閷?shí)體發(fā)現(xiàn),因?yàn)樗鼈兌荚诓煌募舷绿剿鲗?shí)體相關(guān)的知識(shí)。
1.1 實(shí)體識(shí)別
實(shí)體識(shí)別或命名實(shí)體識(shí)別(NER)是一種在文本中標(biāo)記實(shí)體的任務(wù),當(dāng)它關(guān)注于特定的命名實(shí)體時(shí)。手工制作的特征,如大寫模式和特定語言資源,如地名錄,在許多文獻(xiàn)中都有應(yīng)用。最近的工作利用squence-to-squence結(jié)構(gòu),例如,LSTM-CNN用于學(xué)習(xí)字符級(jí)和單詞級(jí)特征以及編碼部分詞匯匹配。Lample等人通過疊加LSTM層和CRF層,即LSTM-CRF和Stack-LSTM。近年來,MGNER提出了一個(gè)集成框架,該框架具有不同粒度的實(shí)體位置檢測(cè)和對(duì)嵌套和非重疊命名實(shí)體的基于注意力機(jī)制的實(shí)體分類。
1.2 實(shí)體分類
實(shí)體分類包括粗粒度分類和細(xì)粒度分類,而后者使用樹結(jié)構(gòu)的類型類別,通常被視為多類別和多標(biāo)簽分類。為了減少標(biāo)簽噪聲,PLE著重于正確的類型識(shí)別,提出了一種基于異質(zhì)圖的部分標(biāo)簽嵌入模型,用于表示實(shí)體提及、文本特征和實(shí)體類型及其關(guān)系。為了解決日益增長的類型集和噪聲標(biāo)簽,Ma等人提出了一種基于原型驅(qū)動(dòng)的分層信息標(biāo)簽嵌入方法用于zero-shot細(xì)粒度命名實(shí)體分類。
1.3 實(shí)體消歧
實(shí)體消歧或?qū)嶓w鏈接是一個(gè)統(tǒng)一的任務(wù),它將提及的實(shí)體和知識(shí)圖譜中的相應(yīng)實(shí)體鏈接起來。例如,愛因斯坦在1921年獲得諾貝爾物理學(xué)獎(jiǎng)。這句話中的實(shí)體提及“愛因斯坦”應(yīng)該與知識(shí)圖譜中的實(shí)體愛因斯坦聯(lián)系起來。目前流行的端到端學(xué)習(xí)方法都是通過實(shí)體的表示學(xué)習(xí)來實(shí)現(xiàn)的,例如DSRM用于實(shí)體語義關(guān)系的建模,EDKate用于實(shí)體和文本的聯(lián)合嵌入。Ganea和Hofmann提出了一種基于局部上下文窗口的注意力神經(jīng)模型,用于實(shí)體表示學(xué)習(xí)和模糊實(shí)體的可微消息傳遞。Le和Titov將實(shí)體之間的關(guān)系視為潛在變量,開發(fā)了一個(gè)端到端的神經(jīng)架構(gòu),具有關(guān)系和mention-wise的規(guī)范化。
1.4 實(shí)體對(duì)齊
前面提到的任務(wù)涉及到從文本或單個(gè)知識(shí)圖譜中發(fā)現(xiàn)實(shí)體,而實(shí)體對(duì)齊旨在融合異構(gòu)知識(shí)圖譜中的知識(shí)。給定E1和E2為兩個(gè)不同知識(shí)圖譜的兩個(gè)不同實(shí)體集,實(shí)體對(duì)其是尋找一個(gè)對(duì)齊集
其中實(shí)體e1和實(shí)體e2具有等價(jià)關(guān)系。在實(shí)際中,如下圖的左框所示,給出一個(gè)對(duì)齊種子的小集合(即,出現(xiàn)在不同的知識(shí)圖譜中的同義實(shí)體)以開始對(duì)齊處理過程。
基于嵌入表示的對(duì)齊需要計(jì)算一對(duì)實(shí)體的嵌入表示之間的相似性。IPTransE在一個(gè)聯(lián)合嵌入框架下將實(shí)體投影到一個(gè)統(tǒng)一的表示空間中,包括通過對(duì)齊的翻譯模型:
線性變換模型:
參數(shù)共享:
為了解決迭代對(duì)齊中的誤差積累問題,BootEA提出了一種增量學(xué)習(xí)的bootstrapping方法,以及一種用于檢查新標(biāo)記對(duì)齊的編輯技術(shù)。
實(shí)體的附加信息也可以被利用起來,例如,JAPE捕捉跨語言屬性之間的相關(guān)性,KDCoE通過共同訓(xùn)練嵌入多語言實(shí)體描述,MultiKE學(xué)習(xí)實(shí)體名稱、關(guān)系和屬性的多個(gè)視圖,與字符屬性嵌入對(duì)齊。
?
往期精選:
知識(shí)圖譜最新權(quán)威綜述論文解讀:知識(shí)圖譜補(bǔ)全部分
對(duì)知識(shí)圖譜的告白:斯坦福大學(xué)CS520課程介紹
知識(shí)圖譜最新權(quán)威綜述論文解讀:知識(shí)表示學(xué)習(xí)部分
知識(shí)圖譜最新權(quán)威綜述論文解讀:開篇部分
手把手教你搭建一個(gè)中式菜譜知識(shí)圖譜可視化系統(tǒng)
?
后期,我們還會(huì)對(duì)這篇綜述的其它部分進(jìn)行解讀。
如果對(duì)文章感興趣歡迎關(guān)注知乎專欄“人工智能遇上知識(shí)圖譜“,也歡迎關(guān)注同名微信公眾號(hào)“人工智能遇上知識(shí)圖譜”,讓我們一起學(xué)習(xí)并交流討論人工智能與知識(shí)圖譜技術(shù)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
總結(jié)
以上是生活随笔為你收集整理的知识图谱最新权威综述论文解读:实体发现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。