论文浅尝 | 近期论文精选
本文轉載自公眾號 PaperWeekly, 對我們近期的論文淺嘗進行了精選整理并附上了相應的源碼鏈接,感謝 PaperWeekly!
TheWebConf 2018
■ 鏈接 | https://www.paperweekly.site/papers/1956
■ 解讀 | 花云程,東南大學博士,研究方向為自然語言處理、知識圖譜問答
動機
對于 KBQA 任務,有兩個最為重要的部分:其一是問題實體識別,即將問題中的主題實體識別出來,并與 KB 做實體鏈接;其二是謂詞映射。
對于主題實體識別任務,之前的做法多為依靠字符串相似度,再輔以人工抽取的特征和規則來完成的。但是這樣的做法并沒有將問題的語義與實體類型、實體關系這樣的實體信息考慮進來。
實體類型和實體關系,很大程度上,是與問題的上下文語義相關的。當只考慮實體關系時,會遇到 zero-shot 的問題,即測試集中某實體的關系,是在訓練集中沒有遇到過的,這樣的實體關系就沒法準確地用向量表達。?
因此,為了解決上述問題,本文首先利用 entity type(實體類型)的層次結構(主要為實體類型之間的父子關系),來解決 zero-shot 的問題。
如同利用 wordnet 計算 word 相似度的做法一般,文章將父類型的“語義”視為所有子類型的“語義”之和。一個實體總是能夠與粗顆粒的父類型相關,例如一個實體至少能夠與最粗顆粒的 person、location 等類型相連。這樣,利用實體所述的類型,在考慮實體上下文時,就可以一定程度上彌補實體關系的 zero-shot 問題。
此外,本文建立了一個神經網絡模型 Hierarchical Type constrained Topic Entity Detection (HTTED),利用問題上下文、實體類型、實體關系的語義,來計算候選實體與問題上下文的相似度,選取最相似的實體,來解決 NER 問題。
經過實驗證明,HTTED 系統對比傳統的系統來說,達到了目前最優的實體識別效果。
貢獻
文章的貢獻有:?
利用父子類型的層次結構來解決稀疏類型訓練不充分的問題;
設計了基于 LSTM 的 HTTED 模型,進行主題實體識別任務;
提出的模型通過實驗驗證取得了 state-of-art 的效果。
方法
本文首先對于父子類型的層次結構進行解釋和論述,也是 HTTED 的核心思想。
本文認為,父類型的語義視為接近于所有子類型的語義之和。例如父類型 organization 的語義,就相當于子類型 company、enterprise 等語義之和。如果類型是由定維向量表示,那么父類型的向量就是子類型的向量之和。
此外,由于在數據集中,屬于子類型的實體比較稀疏,而父類型的實體稠密,如果不采用文中的方法,那么稀疏的子類型將會得不到充分的訓練。若將父類型以子類型表示,那么父子類型都可以得到充分地訓練。
▲?圖1:HTTED模型圖
其次是對文中模型的解釋。如上圖 1 所示,HTTED 使用了三個編碼器來對不同成分編碼。?
其一,是問答上下文編碼器,即將問題經過分詞后得到的 tokens,以預訓練得到的詞向量來表示,并依次輸入雙向 LSTM 進行第一層的編碼;此后,將雙向 LSTM 得到的輸出拼接,再輸入第二層的 LSTM 進行編碼,即得到表示問題上下文的 d 維向量 q。?
其二,是實體類型編碼器,即對于某個候選實體 e,得到其連接的類型,并將父類型以所有子類型向量之和表示,再將這些類型對應的向量輸入一個 LSTM 中進行編碼,得到實體類型的 d 維向量 et。?
其三,是實體關系編碼器,即對于某個候選實體 e,得到其所有實體關系,并表示成向量。此外,對于實體關系,將其關系名切割為 tokens,并以詞向量表示。然后將實體關系和實體關系名這兩種向量,輸入一個 LSTM 中進行編碼,得到實體關系的d維向量 er。?
得到三個向量后,文章認為實體的語義可以由實體類型、實體關系近似表達,所以有:
而在訓練時,設置一個 margin,則 ranking loss 為:
其中 γ 為超參數。
實驗結果
文章使用單關系問答數據集 SimpleQuestions 和知識圖譜 FB2M,并有 112 個具有層次父子關系的實體類型。
HTTED 的詞向量為經過預訓練的,關系向量是初始隨機的,而類型向量中,葉子類型初始隨機,父類型的向量由子類型的向量累加得到。如下圖 2 所示,為 HTTED 與其他系統的效果對比,其中 -Hierarchy表示 HTTED 去除了實體類型的層次結構表示。
▲?圖2:主題實體識別效果對比圖
由圖 2 可見,HTTED 為 state-of-art 的效果。并且,將實體類型的層次結構去除,HTTED 的準確性下降很多。可見層次類型約束對于該模型的重要性。?
由下圖 3 可見,由于使用了層次結構的類型,同名的實體被識別出來,但是與問題上下文更相關的實體都被挑選出來,所以能夠正確識別到主題實體。
▲?圖3:主題實體識別示例圖
總結?
這篇文章,主要有兩個主要工作:其一,是引入了層次結構的實體類型約束,來表達實體的語義,使得與問題上下文相關的實體,更容易被找到;其二,是建立了基于 LSTM 的 HTTED 模型,提高了主題實體識別的效果。
AAAI 2018
■ 鏈接 |?https://www.paperweekly.site/papers/1957
■ 解讀 |?張文,浙江大學博士生,研究方向知識圖譜的分布式表示與推理
動機
知識圖譜的分布式表示旨在將知識圖譜中的實體和關系表示到連續的向量空間中,本文考慮的問題是如何將知識庫的分布式表示和邏輯規則結合起來,并提出了一個新的表示學習方法 RUGE (Rule-Guided Embedding)。
貢獻?
1. 本文提出了一種新的知識圖譜表示學習方法 RUGE,RUGE 在向量表示 (embeddings) 的學習過程中迭代地而非一次性地加入了邏輯規則的約束;?
2. 本文使用的是已有算法自動挖掘的規則,RUGE 的有效性證明了算法自動挖掘的規則的有效性;
3. 本文提出的方法 RUGE 具有很好的通用型,對于不同的邏輯規則和不同置信度的規則的魯棒性較好。
方法 RUGE?
RUGE 方法的輸入有三個部分:?
已標記的三原組:知識庫中已有三元組;
未標記的三元組:知識庫中不存在的三元組。在這篇論文中未標記的三元組只考慮了能夠由邏輯規則推導出的三元組;
概率邏輯規則:本文主要考慮了一階謂詞邏輯規則,每一個邏輯規則都標有一個成立的概率值。實驗中使用的概率規則來自于規則自動挖掘系統 AMIE+。
模型核心想法如下:
三元組表示:
本文采用了 ComplEx 作為基礎的知識庫分布式表示學習的模型,在 ComplEx中,每一個實體和關系都被表示為一個復數向量,一個三元組 (e_i,r_k,e_j) 的得分函數設計如下:
其中 Re<x> 表示取 x 實部的值,bar{e}_j 為 e_j 的共軛向量。正確的三元組得分函數值會較高而不正確的三元組得分函數的值會較低。?
邏輯規則的表示:
本文借鑒了模糊邏輯的核心思想,將規則的真值看作其組成部件真值的組合。例如一個已經實例化的規則 (e_u, e_s,e_v) =(e_u, e_t,e_v) 的真值將由 (e_u, e_s,e_v) 和 (e_u, e_t,e_v) 的真值決定。根據(Guo et al. 2016)的工作,不同邏輯算子的真值計算如下:
由上三式可推出規則真值計算公式:
此規則計算公式是后面規則應用的一個重要依據。
未標記三元組標簽預測:
這一步是整個方法的核心,目的在于對未標記三元組的標簽進行預測,并將這些三元組添加到知識圖譜中,再次進行知識圖譜的分布式表示學習訓練,修正向量結果。
標簽預測的過程主要有兩個目標:
目標一:預測的標簽值要盡可能接近其真實的真值。由于預測的三元組都是未標記的,本文將由當前表示學習的向量結果按照得分函數計算出的結果當作其真實的真值。
目標二:預測的真值要符合對應邏輯規則的約束,即通過規則公式計算出的真值要大于一定的值。其中應用的規則計算公式如下:
其中 φ(e_u, e_s,e_v) 是當前向量表示計算的結果,s(e_u, e_t,e_v) 是要預測的真值。真值預測的訓練目標如下:
通過對上式對求 s(x_u) 導等于 0 可得到 s(x_u) 的計算公式:?
向量表示結果的修正:
將預測了標簽的三元組添加到知識圖譜中,和已由的三元組一起進行訓練,來修正向量學習,優化的損失函數目標如下:
上式前半部分是對知識圖譜中真實存在的三元組的約束,后半部分為對預測了標簽的三元組的約束。?
以上步驟在模型訓練過程中迭代進行。
實驗
鏈接預測:
從實驗結果可以看出,規則的應用提升了表示學習的結果。
EMNLP 2017
■ 鏈接 |?https://www.paperweekly.site/papers/713
■ 解讀 |?劉兵,東南大學在讀博士,研究方向為自然語言處理
動機
近年來基于深度學習方法的遠程監督模型取得了不錯的效果,但是現有研究大多使用較淺的 CNN 模型,通常一個卷基層加一個全連接層,更深的 CNN 模型是否能夠更好地解決以有噪聲的標注數據為輸入的遠程監督模型沒有被探索。
為了探索更深的 CNN 模型對遠程監督模型的影響,本文設計了基于殘差網絡的深層 CNN 模型。實驗結果表明,較深的 CNN 模型比傳統方法中只使用一層卷積的簡單 CNN 模型具有較大的提升。
方法
本方法的模型結構如下圖所示:?
輸入層:每個單詞使用詞向量和位置向量聯合表示;
卷基層:為了得到句子更高級的表示,采用多個卷基層堆疊在一起。為了解決訓練時梯度消失的問題,在低層和高層的卷基層之間建立捷徑連接;
池化層和 softmax 輸出層。
實驗
實驗在遠程監督常用的數據集 NYT-Freebase 上進行。實驗結果表明:?
本文提出的方法采用 9 個卷基層時達到最好的效果,這時不適用注意力機制和 piecewise pooling 性能也接近了使用注意力和 piecewise pooling 的方法。結果如下表所示。
不使用殘差網絡的深層 CNN 模型,當層數較深時效果變差。使用殘差網絡可以解決其無法傳播的問題,效果改善很多;結果如下圖所示。
EMNLP 2017
■ 鏈接 |?https://www.paperweekly.site/papers/1960
■ 源碼 |?http://github.com/LiyuanLucasLiu/ReHession
■ 解讀 |?劉兵,東南大學博士,研究方向為自然語言處理
動機
現有的關系抽取方法嚴重依賴于人工標注的數據,為了克服這個問題,本文提出基于異種信息源的標注開展關系抽取模型學習的方法,例如知識庫、領域知識。
這種標注稱作異源監督(heterogeneous supervision),其存在的問題是標注沖突問題,即對于同一個關系描述,不同來源的信息標注的結果不同。這種方法帶來的挑戰是如何從有噪聲的標注中推理出正確的標簽,以及利用標注推理結果訓練模型。?
例如下面的句子,知識庫中如果存在 <Gofraid,born_in, Dal Riata> 這個三元組,則將下面的句子標注為 born_in 關系;而如果使用人工模板“* killed in*”進行匹配,則會將該句子標注為 kill_in 關系。
Gofraid(e1) died in989, said to be killed in Dal Riata(e2).
為了解決這個問題,本文提出使用表示學習的方法實現為關系抽取提供異源監督。
創新點
本文首次提出使用表示學習的方法為關系抽取提供異源監督,這種使用表示學習得到的高質量的上下文表示是真實標簽發現和關系抽取的基礎。
方法
文章方法框架如下:
▲?關系描述表示方法
1. 文本特征的向量表示。從文本上下文中抽取出文本特征(基于pattern得到),簡單的one-hot方法會得到維度非常大的向量表示,且存在稀疏的問題。為了得到更好的泛化能力,本文采用表示學習的方法,將這些特征表示成低維的連續實值向量;
2. 關系描述的向量表示。在得到文本特征的表示之后,關系描述文本依據這些向量的表示生成關系描述的向量表示。這里采用對文本特征向量進行矩陣變換、非線性變換的方式實現;
3. 真實標簽發現。由于關系描述文本存在多個可能沖突的標注,因此發現真實標簽是一大挑戰。此處將每個標注來源視為一個標注函數,這些標注函數均有其“擅長”的部分,即一個標注正確率高的語料子集。本方法將得到每種標注函數擅長的語料子集的表示,并以此計算標注函數相對于每個關系描述的可信度,最后綜合各標注函數的標注結果和可信度,得到最終的標注結果;
4. 關系抽取模型訓練。在推斷了關系描述的真實標簽后,將使用標注的語料訓練關系抽取器。
值得指出的是,在本方法中,每個環節不是各自獨立的,真實標簽發現與關系抽取模型訓練會相互影響,得到關系上下文整體最優的表示方法。
實驗結果
本文使用 NYT 和 Wiki-KBP 兩個數據集進行了實驗,標注來源一方面是知識庫,另一方面是人工構造的模板。每組數據集進行了包含 None 類型的關系抽取,和不包含 None 類型的關系分類。
結果如下表所示,可見本文的方法相比于其他方法,在兩個數據集的四組實驗中均有較明顯的性能提升。
ACL 2017
■ 鏈接 |?https://www.paperweekly.site/papers/1961
■ 源碼 |?https://github.com/stanfordnlp/cocoa
■ 解讀 |?王旦龍,浙江大學碩士,研究方向為自然語言處理
本文研究了對稱合作對話(symmetric collaborative dialogue)任務,任務中,兩個代理有著各自的先驗知識,并通過有策略的交流來達到最終的目標。本文還產生了一個 11k 大小的對話數據集。
為了對結構化的知識和非結構化的對話文本進行建模,本文提出了一個神經網絡模型,模型在對話過程中對知識庫的向量表示進行動態地修改。
任務
在對稱合作對話任務中,存在兩個 agent,每個代理有其私有的知識庫,知識庫由一系列的項(屬性和值)組成。兩個代理中共享一個相同的項,兩個代理的目標是通過對話找到這個相同的項。?
數據集
本文建立了一個對稱合作對話任務數據集,數據集中知識庫對應的 schema? 中包含 3000 個實體,7 種屬性。數據集的統計信息如下所示:
模型
針對對稱合作對話任務,本文提出了 DynoNet (Dynamic Knowledge GraphNetwork),模型結構如下所示:
Knowledge Graph?
圖譜中包含三種節點:item 節點,attribute 節點,entity 節點。圖譜根據對話中的信息進行相應的更新。
Graph Embedding?
t 時刻知識圖譜中每個節點的向量表示為 V_t(v),向量表示中包含了以下來源的信息:代理私有知識庫的信息,共享的對話中的信息,來自知識庫中相鄰節點的信息。
Node Features?
這個特征表示了知識庫中的一些簡單信息,如節點的度(degree),節點的類型。這個特征是一個 one-hot 編碼。
Mention Vectors?
Mentions vector M_t(v) 表示在 t 時刻的對話中與節點 v 相關的上下文信息。對話的表示 u_t 由個 LSTM 絡計算得到(后文會提到),為了區分 agent 自身產生的對話語句和另一個代理產生的對話語句,對話語句表示為:
Mentions Vector 通過以下公式進行更新:
Recursive Node Embeddings?
一個節點對應的向量表示也會受到相鄰其他節點的影響:
其中 k 表示深度為 k 的節點,R 表示邊對應的關系的向量表示。
最后節點的向量表示為一系列深度的值的連接結果。
本文中使用了:
Utterance Embedding?
對話的向量表示 u_t 由一個 LSTM 網絡計算得到。
其中 A_t 為實體抽象函數,若輸入為實體,則通過以下公式計算:
若不為實體,則為文本對應的向量表示進行 zero padding 的結果(保證長度一致)。
使用一個 LSTM 進行對話語句的生成:
輸出包含字典中的詞語以及知識庫中的實體:
實驗結果
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 近期论文精选的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实体链指比赛方案分享
- 下一篇: 观点 | 抛开炒作看知识图谱,为什么现在