日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 重新审视语言模型与知识库的关系

發布時間:2024/7/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 重新审视语言模型与知识库的关系 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理:陳卓,浙江大學在讀博士,主要研究方向為低資源學習和知識圖譜

論文鏈接:https://arxiv.org/pdf/2106.09231

發表會議:ACL 2021

動機

這篇文章類似于是批判性的文章,反駁的之前EMNLP2019的一篇文章knowledge models as knowledge bases?這篇文章提出了一個觀點:語言模型是一種知識庫,因為它可以回答一些帶有知識性質的完形填空問題。這篇文章重新審視了這個觀點,做了三大部分的實驗,來證明語言模型不是一個可靠的知識庫。首先拋出疑問,這種MLM的模型預訓練語言模型它是否是一個可靠的知識庫?針對這個疑問,作者進行了以下兩個步驟的測試:

(1)首先是找出MLM在知識相關任務上取得提升的核心因素到底是什么?

(2)外部的信息是如何去影響模型的一個預測結果的。

得到最后結論之前作者定義了三種范式:分別是基于prompt、case、context。把它們分別就是用中文形象表示:

(1)第一種就是直接發問,類似于問斯蒂夫喬布斯是出生在哪,就直接給了“Jobs was born in [MASK].”。

(2)第二部分舉三反一,作者舉了一個例子,奧巴馬出生在夏威夷,那么喬布斯出生在哪?

(3)第三個檢索知識,就是說作者用jobs was born in到知識庫去檢索一段話,得到一個知識作為模型的先驗來輔助后面的識別。

作者總結的這三種方式分別最后證明現在的MLM不是可靠的這種外部知識提取器,接下來進行展開。

實驗

實驗分為三部分。

第一部分是基于prompt的方法。作者構造一個新的數據集WIKI-UNI(是專門針對于之前emnlp那篇文章中LAMA數據集所構造了一個針對性數據集),格式為完形填空形式,這里每一個填空都是需要某種意義上的外部知識,好比是三元組的頭實體或者尾實體缺失。WIKI-UNI跟它的區別就WIKI-UN在于答案的分布。如圖所示,

原來的LAMA數據集是直接根據比如說Conceptnet或者是一些大型的知識庫構造過來的,沒有考慮里面答案的一些分布特征,即平時所討論的長尾效應。像舉了這個例子中的答案,從倫敦到墨西哥的一些城市,在原來的數據集里面,可能倫敦出現的次數很高,但墨西哥基本上就沒有出現,所以出現這種答案分布不均的情況。WIKI-UN刻意規避了這一點,它讓所有的答案的分布是均勻的,圖左是作者的數據統計。

作者之所以這么做的目的就是說把這兩個數據集的問題都放到模型里面去預測出來答案,結果發現預測出來的答案的分布確實很接近(哪怕真實的答案是均勻的,最后預測出來的答案的分布也是這種不均勻的長尾分布),所以作者得出了一個結論,認為語言模型里所謂的知識其實是一種data bias,即數據的偏見。模型在學習的時候哪些樣例見的多一些,就更傾向于預測這種東西,而不是說把知識預測出來。作者在右邊相關性分析里面也證明了這一點——兩個數據集最后的答案分布相關性很高。此外作者還補充了一個實驗,即設計了不同的prompt,區別在于有無subject。比如說史蒂夫喬布斯出生在什么地方,這個是full,然后把史蒂夫喬布斯也mask掉,只剩下出生在這樣一個“出生在什么地方”的關系,這個就是prompt only。在這兩種模式下的答案分布相關性也很高,這就說明不管是喬布斯也好,還是還是庫克也好,只要關系是“出生在”那么他們可能都很大概率會預測出類似的地點,也就是它被 prompt的設定所影響。

第二部分是基于case。像這個例子:“Obama was born in Hawaii. [SEP] Steve Jobs was born in [MASK].”。前面是給了一個例子作為參考,前人認為case起到知識引導的作用,但作者實驗發現在這里case主要起一個type約束作用。

或者說是起到一個對type的糾正作用作者統計了加了case之后糾正正確的答案中類型變化的比例,可以看到其實也都很高了,都在85%以上,然后糾正錯誤的答案中糾正錯誤就是本來是對的,加了case之后就答案錯了。此外,這些里面哪怕是模型糾正錯了,這些預測答案的類型也基本沒有變化,所以作者認為效果的提升并不是因為預測的更好,而是對類型的糾正的更好。

另一個實驗也證明了這個觀點:同一類型答案的內部是沒有什么提升的,就像這個圖這樣,對于一個正確答案在加了 case之后的提升有多少?作者為了一個over rank,和in-type rank兩種情況。

Overall意思是只考慮某個答案在加了case后提升了多少排名,可以看到整體的提升是很高的,證明加case是有用的。但是放到in-type情況下,發現性能的提高的和降低的以及不變的都類似于是平均的一種情況,意思就是說如果case的添加沒有導致答案類型的變化,那么對于結果就幾乎沒有影響。

第三部分實驗的結果是證明context-based的方法包含了顯示/隱式的答案從而導致性能提升,這個證明結果對于論點我個人感覺幫助不大,并且結論在另外一篇論文(How Context Affects Language Models‘ Factual Predictions ?AKBC 2020)里面已經被證明過了。這里不展開,大家可以看下圖理解:

總結

該論文核心觀點是語言模型不是一個可靠的知識庫。此外還有許多可以借鑒的地方:

1.如果prompt上存在過擬合的可能,也許構造反事實樣例是一種消除data bias的方法2.現有很多利用知識的相關方法衡量的都是dataset 擬合能力而不是知識提取的能力3.預測的結果(答案)的在不同數據集上分布和真實結果分布的差異衡量模型效果(究竟學到了什么)4.設計數據集的時候要考慮數據均衡的問題而不僅僅是數據隨機劃分。長尾效應應該被考慮(de-biased evaluation datasets)


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的论文浅尝 | 重新审视语言模型与知识库的关系的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。