天天说常识推理,究竟常识是什么?
文 | 花小花Posy
寫這篇文章的時候,我去搜了搜常識的例子。
“睜開眼睛打噴嚏是不可能的。(還真沒留意。)““北極熊是左撇子。“”長頸鹿沒辦法咳嗽。”
呃?好吧,我需要補一補自己的常識。那么這些所謂的“常識”真的是常識嗎?
關于常識的研究近年來是比較火熱的話題,在NLP領域,研究的方向主要有兩條線,一是各種benchmark數據集的構建,各種刷榜以測試我們的模型是否具備某些類型的常識;二是常識知識圖譜的構建,關注點主要在于如何挖掘常識知識、構建結構化常識知識。兩條線的交叉點在于如何利用常識知識輔助各類下游任務。
說到常識知識圖譜,大家可能首先想到的是流行的ConceptNet。
和常見的知識圖譜一樣,常識知識圖譜用關系三元組(h,r,t)來表示一條常識知識,h和t可以是自然語言組成的單詞、短語或者句子,r表示h和t之間的關系。比如在ConceptNet中,關系Causes of的一個三元組是(起床,Causes of,媽媽叫)。
那么除了ConceptNet呢?近年來,得益于眾包機制,研究人員們開始構建各種知識圖譜(KG)。有正式命名為常識KG的,比如ATOMIC、WebChild;也有包含常識知識但非正式命名為常識KG的知識源,比如WordNet、VerbNet。
所以常識知識領域的研究看起來像是遍地開花,但每個知識源的格式、創建的方法、知識類型的覆蓋率都各不相同。對于現存的常識KGs到底包含了哪些類型的常識知識,每個KG對每種類型的覆蓋程度是怎樣的,以及哪些類型對于下游常識推理任務是有用的,缺乏一個統一的定論。今天給大家介紹的這篇文章,正好填補了這一空缺。
論文題目:
Dimensions of Commonsense Knowledge
論文鏈接:
https://arxiv.org/pdf/2101.04640.pdf
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【0310】下載論文PDF~
本文核心想要探究兩個問題:
1. 如何研究現有常識KGs中包含了哪些維度的常識知識?
2. 對于常識推理任務,常識知識圖譜有多重要?
為什么研究這兩個問題是重要的呢?因為直覺上講,常識知識包含了很多世界知識,將其注入下游常識推理任務可以帶來額外的推理知識,從而提升模型的性能。但是實際情況卻是:注入常識知識所帶來的影響十分有限,它給下游任務帶來的提升往往比預訓練語言模型要小很多。因此,統一化現有的常識KGs,并探究其重要性對常識KGs、下游推理任務的未來工作都是有啟發意義的。
常識知識的維度有哪些?
在探究常識知識圖譜的重要性之前,作者首先對現有的20個包含常識的知識源進行了調研,對它們進行概括分類,并從中挑選了7個進行研究。研究的前提是常識知識在關系維度上的統一。文中對現有常識KGs中包含的常識知識的關系類型進行整理、重新聚類后定義了13個常識維度(如下表)。
每個維度包含若干個具體的關系。比如維度distinctness包含ConcpetNet中的{Antonym,DistinctFrom}兩個具體關系。(ps:每個知識源的關系標簽不一樣,所以每個維度包含的具體關系的名字也不相同,詳情參加論文中的Table2)。統一了維度后,就可以從維度的視角統一研究各個常識KGs中存在的常識知識,也可以融合各個KGs的知識進行知識的增強。
本文既可以看成是對常識知識的維度的正式劃分,也可以看成是對常識知識融合[1]是有意義的一個證明。
在統一所有常識KGs的維度的基礎上,本文首先對各個常識KGs中包含常識維度進行了統計分析,對比了它們的維度知識的數量、覆蓋度、冗余度;然后探究哪些維度的常識有助于提升對下游常識推理任務的性能,具體的提升有多大?哪些常識維度已經存在于預訓練語言模型,哪些仍舊缺失?下面我們一起來看看這些問題的答案吧。
各知識源包含的常識維度差距大嗎?
整體來講,部分知識源包含的維度較多,但每個維度的數量分布差距大;而另一些則是包含幾種較少的維度,但每個維度的數量都很多。維度-知識源分布數據如下:可以看出,13個關系維度在知識源中的分布是不平衡的。
被較好捕捉的關系維度更多涉及詞匯關系和分類關系,比如lexical, similarity, distinctictness, taxonomic。
而部分維度則非常罕見,比如comparative維度只出現在WebChild,creation維度只出現在了兩個知識源中,并且只有500條三元組。
在此基礎上,我們可能會接著問,在多個知識源中找到的同一維度的知識有重復的嗎?作者也好奇,于是在文中對各個知識圖譜包含的相同知識的比例進行了統計分析。
各知識源包含的相同常識多嗎?
當兩個知識源A和B包含一條相同三元組時,它們就包含一條相同的常識。對于每個維度,計算任意兩個知識源之間的冗余度。衡量標準是Jaccard score,即共享的三元組數量占兩個知識源的三元組的總和的比例:。
文中的統計數據表明,各個數據源之間的整體知識冗余度是比較低的。 常見的維度有稍微高一些的冗余度,比如taxonomic,similarity維度的冗余度在0.02到15.19中間波動;而其余維度,如quality,utility,temporal等的冗余度接近0。各個知識源之間的低冗余度也證明了論文中將所有常識KGs融合在一起是有意義的。
鑒于預訓練語言模型(PLM)已成為各個領域的baseline,常識領域亦不例外。在后面的實驗中,作者主要想探究PLM中包含的常識知識和常識KGs中包含的常識知識的關系是怎樣的。
語言模型能對常識KGs聚類嗎?
最近很多工作都證明PLM是可以捕捉到到一定程度的常識知識的。那么PLM對于常識關系的無監督聚類和本文中的基于13個維度的聚類結果會相同嗎?
文中將使用關系模板將每一個三元組轉換為句子,并傳遞給RoBERTa-large以獲取其向量表示。得到所有邊的向量表示后,用k-Means將其聚為13類,然后與文中的13個維度的聚類進行對比。作者發現基于無監督的聚類和基于維度的聚類的相似度很低(ajusted rand index =0.235)。進一步,作者隨機采樣5000條邊,并使用UMAP將K-means的聚類結果可視化。通過進一步觀察每個類別中的內容,作者發現:
部分類別有被很好的劃分,比如上圖中的類5,其中主要包含了distinctness的信息。類[4 7 8]大部分包含similarity維度的知識,類[1 6]則包括temporal、desire/goal維度的邊。
另一部分類別則沒有被很好的劃分,比如類[0, 2, 9, 10, 11, and 12],其中內容被lexical和relational—other維度占主導。
對相同的5000條邊,作者使用UMAP對文中的13個維度也進行了可視化,并比較了兩組數據中類別的Jaccard score:高Jaccard表明兩個類別包含的內容相似度高。可以看出RoBERTa的類5和和文中定義distinctness的類的一致性是極高的,說明RoBERTa對于該類內容的表示與其它維度是有很好的區分性的。而其余大部分維度的相似度都是較低的。說明語言模型對不同關系維度的表示和人對不同關系維度的劃分是存在較大差異的。
哪些常識維度有助于常識QA任務?
這部分終于來到了開頭我們提出的問題,也是小花最感興趣的問題:各個維度常識知識給下游常識QA任務帶來的提升是怎樣的?
此處采用的模型[2]是將常識KG中的三元組知識轉換為QA數據,并預訓練語言模型,然后在兩個常識數據集(CSQA和SIQA)上進行zero-shot的評估。
首先,我們看看各個維度的常識知識給下游常識QA任務帶來的整體提升是怎樣的?對比的baseline是直接應用RoBERTa-large,沒有將任何常識KGs中的知識傳遞給模型。從表中可以看到:加入各個維度的常識都提升了模型性能,但是各個維度帶來的提升幅度差異卻很大。很明顯,紅框中的維度帶來的提升比藍框要大很多。
這會不會是因為某些維度的常識已經被語言模型捕捉到了呢?所以作者將RoBERTa-large直接應用到合成的QA數據,以此觀察預訓練語言模型在各個維度上的表現。果然不出所料啊!實驗結果發現,預訓練語言模型在lexical維度上的正確率高達90.1%,而在其它類的正確率卻低很多。該實驗說明:
對于PLM本身已經捕捉的維度,再加入外部知識,意義并不大。
加入預訓練語言模型中缺乏一些維度的知識(比如quality,temporal),進一步訓練語言模型才能帶來額外的提升。 這里的實驗和分析對于往后往預訓練語言模型中加入何種知識是有指導意義的。不過鑒于不同維度給CSQA和SIQA帶來的提升也存在差異性,具體加入什么維度知識有利于提升下游任務性能,還需要結合下游任務需要什么樣維度的知識。
除了上面的實驗外,作者探究了各個維度的常識知識給不同類型的問題帶來的提升是怎樣的?通過給下游任務的問題進行類型劃分,并對比加入不同維度知識會怎樣影響不同類型的問題。在CSQA和SIQA任務上的實驗結果差異較大,整體來講CSQA的問題類型需要的常識維度比較多,而SIQA中的問題只有加入特定維度的知識時才會對特定的問題有提升。
小結
本文首先對于目前20個常識知識源進行了總結,并強調了其之間的關聯性,并由此提煉出現常識關系的13個維度,最終通過實驗對各知識源所含的常識維度、冗余性,預訓練語言模型包含的維度及各維度對下游常識QA任務的影響進行了分析。實驗表明distinctness和lexical知識對下游任務沒有明顯幫助,temporal、desire/goal維度知識對下游任務提升較大。
萌屋作者:花小花Posy
目前在墨爾本大學NLP組讀Ph.D.,主要感興趣方向包括常識問答,知識圖譜,低資源知識遷移。期待有生之年可見證機器真正理解常識的時刻! 知乎ID:花小花Posy
作品推薦:
1.我拿樂譜訓了個語言模型!
2.一句話超短摘要,速覽752篇EMNLP論文
3.Facebook提出生成式實體鏈接、文檔檢索,大幅刷新SOTA!
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1]CSKG: The CommonSense Knowledge Graph https://arxiv.org/pdf/2012.11490.pdf
[2]Knowledge-driven Data Construction for Zero-shot Evaluationin Commonsense Question Answering https://arxiv.org/pdf/2011.03863.pdf
總結
以上是生活随笔為你收集整理的天天说常识推理,究竟常识是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 动手做个DialoGPT:生成式多轮对话
- 下一篇: 从逻辑回归到最大熵模型