论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展
?本文轉(zhuǎn)載自公眾號:PaperWeekly。
精選 5 篇來自 ICLR 2019、WSDM 2019、EMNLP 2018、CIKM 2018和IJCAI 2018 的知識圖譜相關(guān)工作,帶你快速了解知識圖譜領(lǐng)域最新研究進(jìn)展。
■ 論文解讀 | 張文,浙江大學(xué)在讀博士,研究方向為知識圖譜的表示學(xué)習(xí),推理和可解釋
本文是我們與蘇黎世大學(xué)合作的工作,將發(fā)表于 WSDM 2019,這篇工作在知識圖譜的表示學(xué)習(xí)中考慮了實體和關(guān)系的交叉交互,并且從預(yù)測準(zhǔn)確性和可解釋性兩個方面評估了表示學(xué)習(xí)結(jié)果的好壞。
模型
給定知識圖譜和一個要預(yù)測的三元組的頭實體和關(guān)系,在預(yù)測尾實體的過程中,頭實體和關(guān)系之間是有交叉交互的 crossover interaction,即關(guān)系決定了在預(yù)測的過程中哪些頭實體的信息是有用的,而對預(yù)測有用的頭實體的信息又決定了采用什么邏輯去推理出尾實體。
文中通過一個模擬的知識圖譜進(jìn)行了說明,如下圖所示:
基于對頭實體和關(guān)系之間交叉交互的觀察,本文提出了一個新的知識圖譜表示學(xué)習(xí)模型 CrossE。CrossE 除了學(xué)習(xí)實體和關(guān)系的向量表示,同時還學(xué)習(xí)了一個交互矩陣 C,C 與關(guān)系相關(guān),并且用于生成實體和關(guān)系經(jīng)過交互之后的向量表示,所以在 CrossE 中實體和關(guān)系不僅僅有通用向量表示,同時還有很多交互向量表示。
CrossE 核心想法如下圖:
在 CrossE 中,頭實體的向量首先和交互矩陣作用生成頭實體的交互表示,然后頭實體的交互表示和關(guān)系作用生成關(guān)系的交互表示,最后頭實體的交互表示和關(guān)系的交互表示參與到具體的三元組計算過程。
對于一個三元組的計算過程展開如下:
實驗
實驗中本文首先用鏈接預(yù)測的效果衡量了表示學(xué)習(xí)的效果,實驗采用了三個數(shù)據(jù)集 WN18、FB15k 和 FB15k-237,實驗結(jié)果如下:?
從實驗結(jié)果中我們可以看出,CrossE 實現(xiàn)了較好的鏈接預(yù)測結(jié)果。我們?nèi)コ?CrossE 中的頭實體和關(guān)系的交叉交互,構(gòu)造了模型 CrossES,CrossE 和 CrossES 的比較說明了交叉交互的有效性。?
除了鏈接預(yù)測,我們還從一個新的角度評估了表示學(xué)習(xí)的效果,即可解釋性。我們提出了一種基于相似結(jié)構(gòu)通過知識圖譜的表示學(xué)習(xí)結(jié)果生成預(yù)測結(jié)果解釋的方法,并提出了兩種衡量解釋結(jié)果的指標(biāo),AvgSupport 和 Recall。
Recall 是指模型能給出解釋的預(yù)測結(jié)果的占比,其介于 0 和 1 之間且值越大越好;AvgSupport 是模型能給出解釋的預(yù)測結(jié)果的平均 support 個數(shù),AvgSupport 是一個大于 0 的數(shù)且越大越好。可解釋的評估結(jié)果如下:
從實驗結(jié)果中我們可以看出,整體來說 CrossE 能夠更好地對預(yù)測結(jié)果生成解釋。?
鏈接預(yù)測和可解釋的實驗從兩個不同的方面評估了知識圖譜表示學(xué)習(xí)的效果,同時也說明了鏈接預(yù)測的準(zhǔn)確性和可解釋性沒有必然聯(lián)系,鏈接預(yù)測效果好的模型并不一定能夠更好地提供解釋,反之亦然。
■ 論文解讀?| 王梁,浙江大學(xué)碩士,研究方向為知識圖譜,自然語言處理
論文動機
傳統(tǒng)的機器閱讀理解的模型都是給定 context 和 question,找出最有可能回答該 question 的 answer,用概率表示為 p(a|q,c),這其實是一個判別模型。判別模型在大多數(shù)任務(wù)上可以取得比生成模型更好的準(zhǔn)確率,但問題在于判別模型會利用一切能提升準(zhǔn)確率的數(shù)據(jù)特征來做預(yù)測,這在機器閱讀中會造成模型并未完全理解 question 和 context,而是利用訓(xùn)練集中的一些數(shù)據(jù)漏洞來預(yù)測。
如下圖所示,模型只需要 question 中有下劃線的詞即可預(yù)測出正確答案,無須完全理解問題。
在 SQuAD 中另一個典型的情況是:問題的疑問詞是 when 或者 who,而 context 中只有一個日期或者人名,這時模型只需要根據(jù) question 的疑問詞,context 中的日期或人名即可回答問題,不用完全理解 question 和 context。
模型
因此,本文的作者提出基于生成模型架構(gòu)的機器閱讀模型,其優(yōu)化的目標(biāo)是:給定 context,最大化 question 和 answer 的聯(lián)合概率,用概率表示為 p(a,q|c)。該概率可以分解為 p(a|c)p(q|a,c)。對于這兩部分,分別訓(xùn)練兩個模型,最后在預(yù)測時,遍歷所有候選的 answer 選出最大化聯(lián)合概率 p(a,q|c) 的 answer 作為預(yù)測結(jié)果。?
首先訓(xùn)練 p(a|c) 部分,即給定 context,選出最有可能出現(xiàn)的候選的 answer。根據(jù) context 的不同,采用不同的方式。
1. 如果 context 是文檔,例如 SQuAD 數(shù)據(jù)集,那么用 ELMo 得到 context 的表示后,該表示經(jīng)過全連接層映射得到一個 score(記為),該 score 在和候選 answer 的長度指標(biāo) (),這兩個 score 按如下公式得到每個候選 answer 的概率。
2. 如果 context 是圖片,例如 CLEVR 數(shù)據(jù)集,那么在預(yù)訓(xùn)練的 RESNet 上 fine tuning 得到圖片的表示,對所有候選 answer 分類得到每個 answer 出現(xiàn)的概率。?
其次是 p(q|a,c) 部分,本文將其看做是文本生成問題,即采用 Encoder-Decoder 架構(gòu),根據(jù) answer, context 的 encoding 結(jié)果,采用 decoder 生成 question。模型采用的 Decoder 的架構(gòu)為:
其主要包含一個循環(huán) N 詞的 decoder block,每個 block 內(nèi)部 t 時刻生成的詞的 embedding 會先經(jīng)過 self-attention 和 attention 計算,得到的結(jié)果再經(jīng)過一個 LSTM 單元,如此重復(fù) N 次并最終依存 t+1 時刻的詞。
為了解決稀疏詞的問題,在預(yù)測每個詞被生成的概率時采用了 character 級別的 embedding 和 pointer-generator 機制。?
到這里模型已經(jīng)介紹完畢。但是論文中提到了按照上述目標(biāo)函數(shù)和模型結(jié)構(gòu)訓(xùn)練完后,還有一個 fine-tuning 的步驟,這一步的目標(biāo)是通過人為構(gòu)造 question 和 answer 的負(fù)組合,來強化模型生成 question 時和 answer 的關(guān)聯(lián)。
Fine-tuning 的目標(biāo)函數(shù)是最小化如下式子:
其中 A 是由 p(a|c) 選出的在當(dāng)前 context 下最有可能的 top k 個候選 answer。
實驗
模型的實驗結(jié)果如下所示,在 SQuAD 和 CLEVR 上都取得了僅次于當(dāng)前 state-of-the-art 的判別式機器閱讀模型的效果:
可以看到生成模型的效果要比效果最好的判別模型略差,但是本文的論點在于生成模型對 question 和 context 有更全面的理解,從而讓模型有更好的泛化能力和應(yīng)對對抗樣本的能力。
為了驗證模型的泛化能力,本文作者構(gòu)建了一個 SQuAD 的子集,該子集中訓(xùn)練樣本中的 context 都只包含一個日期,數(shù)字或者人名類實體,但是在測試樣本中有多個。如果模型在訓(xùn)練時僅依賴 context 中特殊類型的實體作為答案的數(shù)據(jù)特征,那么在測試集上就會表現(xiàn)很差。
可以看到在該數(shù)據(jù)集上生成模型有很大的優(yōu)勢。
在包含對抗樣本的數(shù)據(jù)集 Adversarial SQuAD 上的表現(xiàn)也好過判別模型。
■ 論文解讀?|?張良,東南大學(xué)博士,研究方向為知識圖譜,自然語言處理
知識圖譜的表示學(xué)習(xí)最近幾年被廣泛研究,表示學(xué)習(xí)的結(jié)果對知識圖譜補全和信息抽取都有很大幫助。本文提出了一種新的區(qū)分概念和實例的知識圖譜表示學(xué)習(xí)方法,將上下位關(guān)系與普通的關(guān)系做了區(qū)分,可以很好的解決上下位關(guān)系的傳遞性問題,并且能夠表示概念在空間中的層次與包含關(guān)系。
本文的主要貢獻(xiàn)有三點:
1. 第一次提出并形式化了知識圖譜嵌入過程中概念與實例區(qū)分的問題
2. 提出了一個新的嵌入模型 TransC 模型,該模型區(qū)分了概念與實例,并能處理 isA 關(guān)系的傳遞性;
3. 基于 YAGO 新建了一個用于評估的數(shù)據(jù)集。
論文動機
傳統(tǒng)的表示學(xué)習(xí)方法沒能區(qū)分概念(concept)和實例(instance)之間的區(qū)別,而是多數(shù)統(tǒng)一看作實體(entity),而概念顯然和實例不是同一個層次的,統(tǒng)一的表示是有欠缺的。更重要的是,之前的方法多數(shù)無法解決上下位關(guān)系傳遞性的問題,這是不區(qū)分概念和實例表示的弊端。
本文創(chuàng)造性地將概念表示為空間中的一個球體,實例為空間中的點,通過點和球體的空間包含關(guān)系和球體間的包含關(guān)系來表示上下位關(guān)系,這種表示可以很自然地解決上下位關(guān)系傳遞性的問題。下圖是一個區(qū)分了概念,實例的層次關(guān)系圖。
模型
通常在人們的腦海里,概念都是通過層級的方式組織起來的,而實例也應(yīng)歸屬于與它們各自對應(yīng)的概念。受此啟發(fā),本文提出了 TransC 模型來處理概念和實例區(qū)分的問題。
在 TransC 模型里,每一個概念都被表示成一個球體,而每一個實例都被表示到與對應(yīng)概念相同的語義空間中。概念與實例以及概念與概念之間的相對位置分別通過 instanceOf 關(guān)系與 subClassOf 關(guān)系來刻畫。
InstanceOf 關(guān)系用來表示某個實例是否在概念所表示的球體中,subClassOf 關(guān)系用來表示兩個概念之間的相對位置,文中提出了四種可能的相對位置:
如上圖所示,(a)、(b)、(c)、(d)分別表示兩個概念所表示球體的相對位置,其中 m 為球體半徑,d 為兩個球體中心的距離,Si 與 Sj?分別表示概念 i 與概念 j 所表示成的球體。
對于 instanceOf 關(guān)系與 subClassOf 關(guān)系,文中有比較巧妙的設(shè)計以便保留 isA 關(guān)系的傳遞性,即 instanceOf-subClassOf 的傳遞性通過來體現(xiàn)。
而 subClassOf-subClassOf 的傳遞性通過來體現(xiàn),其中 (i, r_e, c) 表示 InstanceOf 三元組,(c_i, r_c, c_j) 表示 SubClassOf 三元組。
文中設(shè)計了不同的損失函數(shù)去度量 embedding 空間中的相對位置,然后用基于翻譯的模型將概念,實例以及關(guān)系聯(lián)合起來進(jìn)行學(xué)習(xí)。在文中主要有三類 triple,所以分別定義了不同的損失函數(shù)。?
InstanceOf Triple表示:對于一個給定的 instanceOf triple,如果它是正確的,那么 i 就應(yīng)該被包含在概念 c 所表示的球體 s 里。而實際上,除了被包含以外,很顯然還有一種相對位置就是實例 i 在球體 s(P,m)之外,損失函數(shù)設(shè)計為。
SubClassOf Triple表示:對于一個給定的 subClassOf triple (c_i, r_c, c_j) ,首先定義兩個球中心之間的距離,按照圖 1 所示的四種關(guān)系,還有另外三種損失函數(shù)需要定義。
1. 按照圖 1 中(b)表示的相對位置,兩個球是分開的,損失函數(shù)表示為。
2. 兩個球相交,如圖 1 中(c)所示,損失函數(shù)表示為,與(1)類似。
3. 完全包含關(guān)系,如圖 1 中(d)所示,損失函數(shù)表示為(減小mj,增大mi)。
Relational Triple 表示:對于一個 relational triple (h, r, t),TransC 利用 TransE 模型的訓(xùn)練方式來得到實體和關(guān)系的向量,所以損失函數(shù)定義為。
對于模型的訓(xùn)練,分別用 ξ 和 ξ' 來表示正確和錯誤的三元組,根據(jù)以上幾類損失函數(shù),可以對應(yīng)得到以下幾類損失:?
對于 instanceOf triples,損失表示為:
對于 subClassOf triples,損失表示為:
對于 relational triples,損失表示為:
最后,模型的最終損失函數(shù)為以上幾類損失的線性組合,即。?
實驗
以往的大多數(shù)模型都用 FB15K 和 WN18 來作為評估的數(shù)據(jù)集,但這兩個數(shù)據(jù)集并不很適合文中的模型,而 YAGO 數(shù)據(jù)集不僅含了許多概念而且還有不少實例,所以作者構(gòu)建了一個 YAGO 數(shù)據(jù)集的子集 YAGO39K 來用作試驗評估。?
實驗分別在鏈接預(yù)測,三元組分類以及 instanceOf 與 subClassOf 關(guān)系的三元組分類這幾項任務(wù)上進(jìn)行,實驗結(jié)果如下:?
鏈接預(yù)測與三元組分類結(jié)果:
instanceOf triple 分類結(jié)果:
subClassOf triple 分類結(jié)果:
實驗結(jié)果表明,TransC 模型在相關(guān)任務(wù)上與其它模型相比有較為顯著的提升。
總結(jié)
本文從 Ontology 層面對知識表示學(xué)習(xí)進(jìn)行了較為深入的研究,提出了新的知識圖譜嵌入模型 TransC 模型,該模型將實例、概念以及關(guān)系嵌入到同一個空間中以便用來處理 isA 關(guān)系的傳遞性。
在實驗部分,作者還創(chuàng)建了一個用來評估模型的新數(shù)據(jù)集 YAGO39K。實驗結(jié)果表明 TransC 模型在大多數(shù)任務(wù)上要優(yōu)于傳統(tǒng)的翻譯模型。
對于文中將概念表示成球體的想法似乎還可以繼續(xù)探討,作者將會繼續(xù)尋找適合表示概念的方式。另外,每個概念在不同的三元組里可能會有不同的表示,如何進(jìn)一步地將概念的多意性表達(dá)出來也是一個值得探究的方向。
在傳統(tǒng)的知識工程領(lǐng)域,知識是通過 schema 組織起來的,有較強的邏輯性,但在語義計算層面相比向量來說沒有優(yōu)勢,最近有不少將二者相結(jié)合的工作(給語義的向量計算披上邏輯的外衣)值得關(guān)注一下。
■?解讀?|?譚亦鳴,東南大學(xué)博士生,研究興趣:知識問答,自然語言處理,機器翻譯
本文是發(fā)表在 CIKM 2018 的短文,關(guān)注有時間信息的復(fù)雜知識庫問答工作。文章提出使用 TimeML(一種時間相關(guān)的標(biāo)注語言)對問題進(jìn)行標(biāo)注,在識別時間相關(guān)問題后,根據(jù)時間特征將復(fù)雜問題改寫為多個時序相關(guān)的子問題,通過與現(xiàn)有的知識問答系統(tǒng)相關(guān)聯(lián),實現(xiàn)帶有時間信息的復(fù)雜問答。
論文動機
與簡單問題的處理方式不同,復(fù)雜問答一般會將原問題劃分為多個子問題,而后合并問題答案。作者發(fā)現(xiàn),復(fù)雜問題中一個需要解決的重要問題是時間信息的獲取。以下面三個問題為例:?
Q1: “Which teams did Neymar play for before joiningPSG?”?
Q2: “Under which coaches did Neymar play inBarcelona?”?
Q3: “After whom did Neymar’s sister choose her lastname?”?
在 Q1 中,沒有明確的日期或者時間被提到,我們可以識別“joining PSG”代表了一個事件,然后通過它轉(zhuǎn)換為一個標(biāo)準(zhǔn)的時間信息。而句子中的“before”則提供了另一個時間相關(guān)的線索,但是類似于“before, after”這樣的詞并不總是在句子中承擔(dān)這樣的角色,比如 Q3 中的“after”。?
在 Q2 中,我們看不到類似 Q1 的時間依賴表達(dá),但是“Neymar play in Barcelona”中依然包含了時間信息。?
因此可以發(fā)現(xiàn),處理帶有時序信息的復(fù)雜問題面對的第一個挑戰(zhàn)就是:如何從問句中識別時間信息; 隨之產(chǎn)生的第二個挑戰(zhàn)則是:如何根據(jù)時間信息將問題分解為時序相關(guān)的子問題。
方法
本文方法的關(guān)鍵過程是:1)分解問題;2)重寫子問題。
大體的目標(biāo)如下:
還是以前面的問句為例,Q1: “Which teams did Neymar play for before joiningPSG” 改寫得到子問題 Q2.1, Q2.2。
Q1.1: “Which teams did Neymar play for?”?
Q1.2: “When did Neymar join PSG?”?
而后在問答過程中,通過 Q2.1,從知識庫中得到答案及時間范圍,再與 Q2.2 得到的時間相匹配,從而找到 Q2 的答案。?
為了達(dá)到上述目的,本文提出一種基于規(guī)則的四步框架:?
識別包含時間信息的問題?
分解問題并重寫子問題?
獲取子問題答案?
根據(jù)時間證據(jù)自合子問題答案?
規(guī)則設(shè)計
本文構(gòu)建的規(guī)則以 TimeML(一種標(biāo)注語言)為理論基礎(chǔ),用于識別句子及文本中的時間信息。
標(biāo)簽提供了以下信息:
TIMEX3 tag,反映四類時間表達(dá);
SIGNAL tag,反映時間表達(dá)標(biāo)簽之間的關(guān)系(用于切分子問題)。?
規(guī)則定義
包含時間信息的問題:即出現(xiàn)了時間信息表達(dá)或時間信息關(guān)系的問句(標(biāo)簽?zāi)茉趩柧渲袠?biāo)出內(nèi)容)。
時間關(guān)系:Allen (J. F.Allen. 1990. Maintaining knowledge about temporal intervals. In Readings inqualitative reasoning about physical systems. Elsevier) 定義了 13 種時間關(guān)系,EQUAL, BEFORE, MEETS, OVERLAPS, DURING, STARTS, FINISHES。
表 1 列舉了子問題重寫規(guī)則。回答子問題時,對于包含時間信息的子問題需要檢索可能的時間范圍。
實驗
本文實驗評估基于 TempQuestions benchmark,其中包含 1271 個時間相關(guān)問題,并使用三個目前最好的 KBQA 系統(tǒng)作為 baseline:AQQU, QUINT 和 Bao et al。在實驗中,作者將框架與問答系統(tǒng)整合到一起,構(gòu)成對比模型。
實驗結(jié)果反映出添加框架的問答系統(tǒng)的提升主要表現(xiàn)為 F1 與準(zhǔn)確率的上升。
總結(jié)
本文提出了一種基于時間信息標(biāo)注的規(guī)則型時序復(fù)雜問答框架,主要以時間信息的規(guī)則標(biāo)注概念為基礎(chǔ),將復(fù)雜問題的切分過程轉(zhuǎn)換為序列標(biāo)注問題,并對已有人工規(guī)則加以利用,構(gòu)建時序信息間的關(guān)系。框架整體比較簡明,從規(guī)則角度看,還需要做部分深入閱讀方能較好理解該方法是否具有較好的泛化性。
■ 論文解讀?|?花云程,東南大學(xué)博士,研究方向為知識圖譜問答、自然語言處理
論文動機
在以前的工作中,對話生成的信息源是文本與對話記錄。但是這樣一來,如果遇到 OOV 的詞,模型往往難以生成合適的、有信息量的回復(fù),而會產(chǎn)生一些低質(zhì)量的、模棱兩可的回復(fù),這種回復(fù)往往質(zhì)量不高。?
為了解決這個問題,有一些利用常識知識圖譜生成對話的模型被陸續(xù)提出。當(dāng)使用常識性知識圖譜時,由于具備背景知識,模型更加可能理解用戶的輸入,這樣就能生成更加合適的回復(fù)。但是,這些結(jié)合了文本、對話記錄、常識知識圖譜的方法,往往只使用了單一三元組,而忽略了一個子圖的整體語義,會導(dǎo)致得到的信息不夠豐富。?
為了解決這些問題,文章提出了一種基于常識知識圖譜的對話模型(commonsense knowledge aware conversational model,CCM)來理解對話,并且產(chǎn)生信息豐富且合適的回復(fù)。
本文提出的方法利用了大規(guī)模的常識性知識圖譜。首先是理解用戶請求,找到可能相關(guān)的知識圖譜子圖;再利用靜態(tài)圖注意力(static graphattention)機制,結(jié)合子圖來理解用戶請求;最后使用動態(tài)圖注意力(dynamic graph attention)機制來讀取子圖,并產(chǎn)生合適的回復(fù)。?
通過這樣的方法,本文提出的模型可以生成合適的、有豐富信息的對話,提高對話系統(tǒng)的質(zhì)量。
貢獻(xiàn)
文章的貢獻(xiàn)有:
1. 首次嘗試使用大規(guī)模常識性知識圖譜來處理對話生成問題;
2. 對知識圖譜子圖,提出了靜態(tài)/動態(tài)圖注意力機制來吸收常識知識,利于理解用戶請求與生成對話;
3. 對比于其他系統(tǒng),目前的模型生成的回復(fù)是最合適的、語法最正確的、信息最豐富的。
方法
1. Encoder-Decoder模型?
經(jīng)典的 Encoder-Decoder 模型是基于 sequence-to-sequence(seq2seq)的。encoder 模型將用戶輸入(user post)X=x_1 x_2…x_n 用隱狀態(tài) H=h_1 h_2…h(huán)_n 來表示。而 decoder 模型使用另一個 GRU 來循環(huán)生成每一個階段的隱狀態(tài),即。在解碼過程中利用了注意力機制。?
當(dāng) decoder 模型根據(jù)概率分布生成了輸出狀態(tài)后,可以由這個狀態(tài)經(jīng)過 softmax 操作得到最終的輸出。可以看到,在這個經(jīng)典的 encoder-decoder 模型中,并沒有圖的參與。?
2. 模型框架?
如下圖 1 所示為本文提出的 CCM 模型框架。
如圖 1 所示,基于 n 個詞輸入,會輸出 n 個詞作為回復(fù),模型的目的就是預(yù)估這么一個概率分布,即將圖信息 G 加入到概率分布的計算中。
在信息讀取時,根據(jù)每個輸入的詞 x,找到常識知識圖譜中對應(yīng)的子圖(若沒有對應(yīng)的子圖,則會生成一個特殊的圖 Not_A_Fact),每個子圖又包含若干三元組。
⒊ 知識編譯模塊
如圖 2 所示,為如何利用圖信息編譯 post 的示意圖。
如圖所示,當(dāng)編譯到“rays”時,會把這個詞在知識圖譜中相關(guān)的子圖得到(圖 2 最上的黃色高兩部分),并生成子圖的向量。每一個子圖都包含了 key entity(即這里的 rays),以及這個“rays”的鄰居實體和相連關(guān)系。
對于詞“of”,由于無法找到對應(yīng)的子圖,所以就采用特殊子圖 Not_A_Fact 來編譯。之后,采用基于靜態(tài)注意力機制,CCM 會將子圖映射為向量,然后把詞向量 w(x_t) 和 g_i 拼接為,并將這個替換傳統(tǒng) encoder-decoder 中的 e(x_t) 進(jìn)行 GRU 計算。?
對于靜態(tài)圖注意力機制,CCM 是將子圖中所有的三元組都考慮進(jìn)來,而不是只計算一個三元組,這也是該模型的一個創(chuàng)新點。?
⒋ 知識生成模塊?
如下圖 3 所示,為如何利用圖信息生成回復(fù)的示意圖。
在生成時,不同于靜態(tài)圖注意力機制,模型會讀取所有相關(guān)的子圖,而不是當(dāng)前詞對應(yīng)的子圖,而在讀取時,讀取注意力最大的就是圖中粉色高亮的部分。生成時,會根據(jù)計算結(jié)果,來選擇是生成通用字(generic word)還是子圖中的實體。?
⒌ 損失函數(shù)?
損失函數(shù)為預(yù)期輸出與實際輸出的交叉熵,除此之外,為了監(jiān)控選擇通用詞還是實體的概率,又增加了一個交叉熵。
實驗
實驗相關(guān)細(xì)節(jié)?
常識性知識圖譜選用了 ConceptNet,對話數(shù)據(jù)集選用了 reddit 的一千萬條數(shù)據(jù)集,如果一個 post-response 不能以一個三元組表示(一個實體出現(xiàn)于 post,另一個出現(xiàn)于 response),就將這個數(shù)據(jù)去除。
然后對剩下的對話數(shù)據(jù),分為四類,一類是高頻詞,即每一個 post 的每一個詞,都是最高頻的 25% 的詞;一類是中頻詞,即 25%-75% 的詞;一類是低頻詞,即 75%-100% 的詞;最后一類是 OOV 詞,每一個 post 包含了 OOV 的詞。?
而基線系統(tǒng)選擇了如下三個:只從對話數(shù)據(jù)中生成 response 的 seq2seq 模型、存儲了以 TransE 形式表示知識圖譜的 MemNet 模型、從三元組中 copy 一個詞或生成通用詞的 CopyNet 模型。?
而選用 metric 的時候,采用了刻畫回復(fù)內(nèi)容是否語法正確且貼近主題的 perplexity,以及有多少個知識圖譜實體被生成的 entity score。
實驗結(jié)果?
如下圖 4 所示,為根據(jù) perplexity 和 entity score 進(jìn)行的性能比較,可見 CCM 的 perplexity 最低,且選取 entity 的數(shù)量最多。并且,在低頻詞時,選用的 entity 更多。這表示在訓(xùn)練時比較罕見的詞(實體)會需要更多的背景知識來生成答復(fù)。
另外,作者還采用眾包的方式,來人為審核 response 的質(zhì)量,并采用了兩種度量值 appropriateness(內(nèi)容是否語法正確,是否與主題相關(guān),是否有邏輯)與 informativeness(內(nèi)容是否提供了 post 之外的新信息)。
如下圖所示,為基于眾包的性能比較結(jié)果。
從上圖可見,CCM 對于三個基線系統(tǒng)來說,都有將近 60% 的回復(fù)是更優(yōu)的。并且,在 OOV 的數(shù)據(jù)集上,CCM 比 seq2seq 高出很多,這是由于 CCM 對于這些低頻詞或未登錄詞,可以用知識圖譜去補全,而 seq2seq 沒有這樣的知識來源。
如下圖所示,當(dāng)在 post 中遇到未登錄詞“breakable”時,seq2seq 和 MemNet 都只能輸出一些通用的、模棱兩可的、毫無信息量的回復(fù)。CopyNet 能夠利用知識圖譜輸出一些東西,但是并不合適。而 CCM 卻可以輸出一個合理的回復(fù)。
總結(jié)
本文提出了一種結(jié)合知識圖譜信息的 encoder-decoder 方法,引入靜態(tài)/動態(tài)圖注意力機制有效地改善了對話系統(tǒng)中 response 的質(zhì)量。通過自動的和基于眾包的形式進(jìn)行性能對比,CCM 模型都是優(yōu)于基線系統(tǒng)的。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 通过知识到文本的转换进行知
- 下一篇: Reactor三种线程模型与Netty线