论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...
論文筆記整理:潘銳,天津大學碩士。
來源:AAAI 2020
鏈接:https://arxiv.org/pdf/1912.01795.pdf
摘要
義原被定義為人類語言的最小語義單位。義原知識庫(KBs)是一種包含義原標注詞匯的知識庫,它已成功地應用于許多自然語言處理任務中。然而,現有的義原知識庫建立在少數幾種語言上,阻礙了它們的廣泛應用。為此論文提出在多語種百科全書詞典BabelNet的基礎上建立一個統一的多語種義原知識庫。首先建立一個數據集作為多語種義原知識庫的種子知識庫。它為超過1.5萬個synset,并由人工手動標注若干義原。然后,首次提出并正式定義了BabelNet synset 義原預測任務,旨在將種子數據集擴展為一個可用的知識庫。論文還利用了不同的synset信息提出了兩個簡單有效的模型。最后,進行定量和定性分析,探究任務中的重要因素和難點。
研究背景
人類語言可以劃分成不同層次——句子可以劃分成短語或詞組,再進一步劃分成詞。詞是最小的可以獨立運用的單位,也是自然語言處理最常用的語言單位。但從語義層面講,詞還可以進一步細分為義原——也即語言學家定義的最小的語義單位。一些語言學家認為所有語言的所有詞語的意思都可以用一個有限的義原集合來表達。并且有語言學家認為義原體系在任何語言中都是適用的,并不與特定語言相關。為了能在自然語言處理實踐中應用義原,董振東和董強花費數十年時間構建了最著名的義原知識庫——知網(HowNet)。HowNet預定義了兩千多個義原,并用其標注了十萬多個中/英文詞語。每個詞語的每個義項都用若干義原標注以表達其語義。
研究動機
然而,HowNet中已標注義原的英文詞語數量有限,僅占WordNet英文詞數的 32.8%,且中英之外其他語言的詞語沒有義原標注。這導致義原在自然語言處理領域的應用范圍被大大局限——也是此前義原主要被用于中文自然語言處理任務的原因。為了解決這一問題,有人提出跨語言詞語的義原預測 ,旨在通過雙語詞表示對齊的方式為其他語言的詞語預測義原。但這種方法一次只能為一種語言的詞語預測義原,不是非常高效,并且該方法無法進行義項層面的義原預測。
研究方法
和跨語言詞語義原預測的思路不同,本文提出基于BabelNet來構建多語言義原知識庫的方案。BabelNet是一個多語言百科詞典,由BabelNet synset組成,每個synset包含意義相同的不同語言的詞語,下圖給出了一個例子——這個synset包含英語、漢語、法語、德語等各種語言表示「丈夫」這個意思的詞語。
一個synset中不同語言的詞語都應該被標注同樣的義原,換言之,直接為BabelNet synset標注義原就可以同時為多個語言的詞語標注義原,從而高效地構建一個多語言義原知識庫。除了高效之外,基于BabelNet來構建多語言義原知識庫的方案還有其他好處:直接將義原標注在義項層面;BabelNet蘊含的豐富的信息都可以為義原預測所用——包括維基百科、WordNet、FrameNet等等。
1 BabelSememe 數據集
為了推進大規模多語言義原知識庫的構建,本文首先標注了一個種子知識庫BabelSememe。它包含約一萬五千個synset,每個synset由人工標注了若干義原。由于此前義原的結構鮮少被使用,同時為了節省成本,BabelSememe的標注暫時忽略了義原的結構。下圖給出了BabelSememe數據集的分詞性統計。
2 BabelNet synset義原預測形式化定義
有了種子知識庫,下一步就是基于有義原標注的synset,為無標注的synset標注義原,進而將種子知識庫不斷擴充成最終的大規模義原知識庫。本文首次提出并正式定義了BabelNet synset義原預測任務。BabelNet synset義原預測形式化如下:
定義為對BabelNet的某個Synset “b” 的預測義原集合,P(s|b)為給定b時,義原s的預測分數,為義原預測分數閾值。即為某個synset預測義原時,首先使用某種方法計算所有義原被預測給當前synset的分數,然后選取預測分數高于某個閾值的義原作為最終預測結果。
3 方法一:基于語義表示的Synset義原預測
這種方法的思路非常直觀,即意思相近的synset其所標注義原也應該相似——這和推薦系統中常用的協同過濾方法非常類似。其中synset之間的相似性利用了BabelNet提供的NASARI synset embedding的余弦相似度衡量。
這種方法的公式如下圖 所示,
4 方法二:基于關系表示的Synset義原預測
BabelNet包含很多synset之間的關系,例如同義、反義、上下位等。與此同時,HowNet也定義了若干種義原之間的關系,那么自然地,synset之間的關系和synset所標注的義原之間的關系應該是對應的,利用這種性質便可以進行義原預測。例如,
上圖中better和worse這兩個synset存在反義的關系,他們分別被標注了superior和inferior這兩個同樣存在反義關系的義原。那么,在已知better和worse、superior 和 inferior這兩對反義關系,以及better有superior這個義原,很容易推測出中worse含有inferior這個義原。
基于此,本文建立了一個語義圖,節點有synset和義原兩種,關系有三種:synset之間的關系、義原之間的關系以及synset和義原之間被標注的關系(hava_sememe)。synset義原預測也就轉化為了知識圖譜中實體預測的任務,即給定頭實體——待義原預測的synset,給定關系have semem,預測尾實體義原。這篇論文利用了知識圖譜任務中經典的TransE模型來學習這些實體和關系的表示以進行預測。
此外,考慮到synset義原預測任務的特殊性,文中還額外引入了一個語義相等約束。詞的語義可以由其義原組合而成,synset也有類似的性質,因此文中提出synset與其義原之和有一個語義等價的關系,并且在模型訓練時額外引入語義相等約束。例如:
上圖中husband這個synset加上語義相等關系等于義原embedding的和。因此方法二訓練時的總損失函數為兩者之和,如下圖所示。
此外,文中還通過簡單的順序倒數加權相加的方式將兩種方法進行了集成。
實驗
該文利用自己構建的BabelSememe數據集對提出的synset義原預測模型進行了評測。其中為了對比,設置了兩個基線方法:(1)同樣使用了synset的語義表示(NASARI embedding)的邏輯回歸(LR)和(2)基于關系表示的TransE。
通過實驗結果發現,文中提出的方法一和方法二分別好于兩個基線模型,而且集成模型Ensemble獲得了最好的結果。
此外,論文還進行了一系列的定量分析,以探討影響synset義原預測結果的因素。發現義原預測結果和synset以及義原度數(即方法二的語義圖中節點度數)都成正相關,隨著sysnet義原數量的增加先增加后減小。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 肖仰华 | 做个“有知识”的机器人
- 下一篇: AI 趋势