论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...
轉(zhuǎn)載公眾號 |?浙大KG
論文題目:Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining
本文作者:張寧豫(浙江大學(xué))、鄧淑敏(浙江大學(xué))、張亦弛(阿里巴巴)、張偉(阿里巴巴)、陳華鈞(浙江大學(xué))等
發(fā)表會議:IJCAI?2021?(歡迎轉(zhuǎn)載,轉(zhuǎn)載請注明出處)
引言
近年來,有很多工作嘗試將知識圖譜等外部知識融入到BERT為代表的預(yù)訓(xùn)練語言模型中。但是,不少外部知識存在一定程度的噪音,且不少實(shí)體存在歧義。事實(shí)上,先前工作已發(fā)現(xiàn)預(yù)訓(xùn)練語言模型中捕獲了相當(dāng)數(shù)量的實(shí)體、常識知識,那么不加選擇地將所有的外部知識融入語言模型真的最優(yōu)么?本文探討了語言模型中融入知識噪音的問題,并提出了一種基于頻率采樣和譜正則化的選擇性知識融入方法。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法可以增強(qiáng)最新的知識注入的預(yù)訓(xùn)練語言模型。
一、前言
2018年以來,預(yù)訓(xùn)練語言模型的研究風(fēng)起云涌。由于預(yù)訓(xùn)練過程缺乏對知識的捕捉,學(xué)者們提出不少將知識融合預(yù)訓(xùn)練語言模型的方法如ERNIE[1]、KnowBERT[2]、CoLake[3]等。知識的融入的確提升了不少知識密集型任務(wù)如關(guān)系抽取、實(shí)體分類等的效果。然而,外部知識中存在相當(dāng)程度的噪音。一方面,由于實(shí)體的歧義性,文本可能會被融入完全錯誤、不相關(guān)的實(shí)體知識。比如,對于“qq飛車小橘子”這句話,如果將水果“小橘子”的實(shí)體知識融入語言模型,對語義理解反而可能會其負(fù)面作用。另一方面,并不是所有的三元組知識都能促進(jìn)語義理解。比如對于“斯蒂芬·庫里和克萊·湯普森帶領(lǐng)勇士隊(duì)勇奪2015年nbva冠軍”這句話,三元組知識(斯蒂芬·庫里,女兒,賴?yán)?#xff09;在可能對理解語義起不到多少幫助。事實(shí)上,CokeBERT[4]和K-BERT[5]都曾在實(shí)驗(yàn)中發(fā)現(xiàn),不加選擇的融入知識并非最優(yōu)。
從另一個角度,2019年Allan 發(fā)表在EMNLP2019的論文[6]及一些后續(xù)工作[7,8,9]指出,預(yù)訓(xùn)練語言模型在參數(shù)空間其實(shí)學(xué)習(xí)到了大量的實(shí)體、常識知識,甚至可以作為一個連續(xù)型知識庫,這啟發(fā)了我們思考:語言模型注入的知識真的越多越好么?外部的噪音知識對模型有什么影響呢?我們有沒有辦法對知識加以選擇更好地進(jìn)行知識注入呢?其實(shí),[10]中有學(xué)者發(fā)現(xiàn),不加選擇的注入實(shí)體知識并不一定會帶來知識密集型任務(wù)性能的提升。受到這些工作啟發(fā),我們首先分析了知識中噪音對預(yù)訓(xùn)練語言模型的影響。
二、分析
我們首先采樣了部分實(shí)體和實(shí)例,并根據(jù)實(shí)體頻率分析不同知識注入的差異,其次分析了知識噪音對模型的影響。由于很難判斷知識圖譜中究竟有多少噪音,因此我們采取人工控制噪音的方式來分析,這里的噪音主要是指實(shí)體的歧義性。我們通過實(shí)體替換的方式來人工制造知識噪音。
如上圖a所示,我們發(fā)現(xiàn)對于低頻實(shí)體而言,注入實(shí)體的增益相對較大,這一發(fā)現(xiàn)也同[10]中的結(jié)論類似。在圖b中,我們發(fā)現(xiàn),隨著噪音的注入,模型性能顯著下降。這一發(fā)現(xiàn)也同[11]中的隨機(jī)擾動知識圖譜導(dǎo)致的結(jié)論一致。由此我們發(fā)現(xiàn),一般來說,知識噪音會損害模型性能(極少數(shù)情況噪音會修復(fù)知識圖譜中錯誤的關(guān)聯(lián)關(guān)系進(jìn)而提升魯棒性,見[11])。基于此發(fā)現(xiàn),我們可以通過頻率對知識進(jìn)行選擇,以注入對模型更加有用的知識,減少噪音注入的可能性。
受到遷移學(xué)習(xí)中負(fù)遷移理論的啟發(fā)[12,13],我們進(jìn)行進(jìn)一步分析。我們對知識注入模型的權(quán)重和特征及其奇異值進(jìn)行分析,以驗(yàn)證語言模型是否可以適用于負(fù)遷移理論。
具體的說,我們對預(yù)訓(xùn)練語言模型的最后一層輸出特征進(jìn)行SVD分解,并比較模型在給定15%、30%、50%和100%訓(xùn)練樣本時奇異值的情況,如下公式所示:
如下圖所示,我們發(fā)現(xiàn)在下游任務(wù)微調(diào)過程中,模型特征的尾部奇異值往往會自動下降,這一發(fā)現(xiàn)也和論文[13]中結(jié)論一致,也就說注入的噪音知識可以類比成遷移學(xué)習(xí)中造成負(fù)遷移的原因之一。基于此發(fā)現(xiàn),我們可以直接對尾部奇異值進(jìn)行約束,以減輕源領(lǐng)域(注入了噪音的語言模型)對下有任務(wù)的影響。
三、方法
方法包含兩部分,首先我們提出一種基于頻率的實(shí)體采樣算法來選擇知識(這一方法不需要額外參數(shù),也可以基于注意力機(jī)制來選擇知識如[14])。先前的工作表明,語言模型其實(shí)已經(jīng)掌握了大部分高頻實(shí)體知識,因此我們對預(yù)訓(xùn)練語料(維基百科)中的高頻實(shí)體設(shè)置一個較低的權(quán)重,鼓勵模型注入低頻實(shí)體。
然而,由于知識圖譜中存在大量一對多、多對一的事實(shí)知識,這部分知識高頻實(shí)體也較難習(xí)得,且這些實(shí)體包含的信息相對較為豐富,因此,我們提高同一個文檔內(nèi)的實(shí)體間跳數(shù)較少的實(shí)體的采樣權(quán)重(超參數(shù)控制),具體采樣公式如下:
其次,我們采用了一種譜正則技術(shù)來減輕噪音對微調(diào)的影響。一般來說傳統(tǒng)的機(jī)器學(xué)習(xí)模型可以通過對參數(shù)或特征進(jìn)行正則來減輕遷移學(xué)習(xí)的負(fù)遷移現(xiàn)象,然而對于語言模型,其參數(shù)維度遠(yuǎn)大于特征維度,因此我們僅對特征進(jìn)行正則。我們對語言模型的輸出特征進(jìn)行SVD分解,并對尾部k個特征值進(jìn)行約束:
整體的模型圖如下:
四、實(shí)驗(yàn)
我們基于維基百科重新進(jìn)行了知識注入預(yù)訓(xùn)練(ERNIR,KnowBERT),并在多個知識密集型數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),如下表所示,我們的方法在大多數(shù)數(shù)據(jù)集上都取得了較好的效果。此外,我們還發(fā)現(xiàn),通過知識選擇和正則化,我們的方法在GLUE上的性能下降小于原始的知識注入模型。
五、總結(jié)與展望
在本文中,我們分析了知識噪音對語言模型性能的影響,并提出一種基于知識選擇的知識融入方法。隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,數(shù)據(jù)驅(qū)動漸入天花板。盡管超大規(guī)模的預(yù)訓(xùn)練語言模型如GPT-3取得了令人驚艷的效果,它仍然經(jīng)常鬧笑話。數(shù)據(jù)+知識是驅(qū)動未來認(rèn)知AI的重要路線之一。對于通用的、高頻的實(shí)體、常識等知識,也許可以通過大規(guī)模預(yù)訓(xùn)練習(xí)得,然而更多的低頻長尾知識、多元關(guān)聯(lián)知識、復(fù)雜邏輯知識,數(shù)據(jù)驅(qū)動的方法較難使模型具備相應(yīng)的能力,可能知識注入和融合符號化推理的方式更加有效。我們的工作探討了如何更好的利用知識,但仍然有模型訓(xùn)練慢、知識選擇相對Ad hoc等不足。在未來很多可以改進(jìn)的方向如:
1)深入探索哪些知識對神經(jīng)網(wǎng)絡(luò)更有用?
神經(jīng)網(wǎng)絡(luò)通過海量的數(shù)據(jù)預(yù)訓(xùn)練可能已經(jīng)在參數(shù)空間習(xí)得部分知識,這些連續(xù)空間的參數(shù)更加有利于機(jī)器去適應(yīng)下有任務(wù),[15]探索了模型究竟掌握了哪些常識知識,仍需要更多的工作去探索神經(jīng)網(wǎng)絡(luò)的能與不能。
2)如何高效注入知識?
符號化知識和向量化表征存在顯著的異構(gòu)性,[16]提出了一種基于Graph-to-text的方式減輕了數(shù)據(jù)差異,然而對于大多數(shù)人類可讀的知識,如何高效的將其轉(zhuǎn)換為機(jī)器可理解的方式,并注入模型中,仍面臨較大挑戰(zhàn)。
3)如何更新模型中的知識?
互聯(lián)網(wǎng)每天會產(chǎn)生海量的新文本,人類知識也在不斷更新,比如在不同時間階段三元組知識(美國,現(xiàn)任總統(tǒng),特朗普)會更新為(美國,現(xiàn)任總統(tǒng),拜登)。因此,如何更新預(yù)訓(xùn)練語言模型參數(shù)空間的知識面臨研究挑戰(zhàn)。[17]對這一問題進(jìn)行了初步探索。事實(shí)上,降低預(yù)訓(xùn)練語言模型的迭代成本,使得模型低碳、經(jīng)濟(jì)、環(huán)保具有非常重要的現(xiàn)實(shí)意義。
4)如何解耦模式識別和符號推理?
神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的非線性擬合能力,使其在一定程度上具備超越人類的模式識別能力。然而,對于一些基本的常識、數(shù)值、邏輯推理問題,預(yù)訓(xùn)練語言模型經(jīng)常鬧笑話。融合數(shù)據(jù)和知識,進(jìn)行神經(jīng)符號化學(xué)習(xí)可能是使機(jī)器具備推理能力的重要技術(shù)路線之一。然而神經(jīng)網(wǎng)絡(luò)的向量空間高度抽象,符號空間相對離散,如何針對具體任務(wù)將符號表示Grounding到向量空間,解耦模式識別和符號推理仍面臨嚴(yán)峻挑戰(zhàn)。
[1] ERNIE: Enhanced Language Representation with Informative Entities. ACL2019
[2] Knowledge Enhanced Contextual Word Representations. EMNLP2019
[3] CoLAKE: Contextualized Language and Knowledge Embedding.COLING2020
[4] CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models
[5] K-BERT: Enabling Language Representation with Knowledge Graph.AAAI2020
[6] Language Models as Knowledge Bases? EMNLP2019
[7] Language Models as Knowledge Bases: On Entity Representations, Storage Capacity, and Paraphrased Queries.
[8] How can we know what language models know
[9] Language Models are Open Knowledge Graphs.
[10] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. TACL2020
[11] Learning to Deceive Knowledge Graph Augmented Models via Targeted Perturbation ICLR2020
[12] Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation. ICML2019
[13] Catastrophic Forgetting Meets Negative Transfer: Batch Spectral Shrinkage for Safe Transfer Learning. NeurIPS 2020
[14] Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI2018
[15] Dimensions of Commonsense Knowledge
[16] Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation. AAAI2021
[17] Knowledge Neurons in Pretrained Transformers
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流 | IJCKG 2021 日程
- 下一篇: 论文浅尝 | 异构图 Transform