NeurIPS 2021 | 微软研究院提出CLUES,用于NLU的少样本学习评估
?作者 | 雪麓?
單位 | 北京郵電大學(xué)
研究方向 | 序列標(biāo)注
自然語言理解 (NLU) 的最新進(jìn)展部分是由 GLUE、SuperGLUE、SQuAD 等基準(zhǔn)驅(qū)動的。事實上,許多 NLU 模型現(xiàn)在在這些 benchmark 中的許多任務(wù)上已經(jīng)達(dá)到或超過了“人類水平”的性能。然而,這些 benchmark 中的大多數(shù)都允許模型訪問相對大量的標(biāo)記數(shù)據(jù)以進(jìn)行訓(xùn)練。因此,模型提供的數(shù)據(jù)遠(yuǎn)多于人類實現(xiàn)強(qiáng)大性能所需的數(shù)據(jù)。這激發(fā)了一系列專注于提高 NLU 模型的少樣本學(xué)習(xí)性能的工作。然而,由于少樣本 NLU 缺乏標(biāo)準(zhǔn)化的評估 benchmark,導(dǎo)致不同論文中的實驗設(shè)置不同。
本文作者證明,雖然最近的模型在訪問大量標(biāo)記數(shù)據(jù)時達(dá)到了人類的表現(xiàn),但在大多數(shù)任務(wù)的少樣本設(shè)置中,性能存在巨大差距。作者還在少樣本設(shè)置中展示了可選的模型系列和適應(yīng)技術(shù)之間的差異。最后,作者討論了設(shè)計用于評估“真實” few-shot 學(xué)習(xí)性能的實驗設(shè)置的幾個原則和選擇,并提出了一種統(tǒng)一的標(biāo)準(zhǔn)化方法來進(jìn)行 few-shot 學(xué)習(xí)評估。作者的目標(biāo)是鼓勵大家對于能夠使用少量樣本就能泛化到新任務(wù)的 NLU 模型研究。
論文標(biāo)題:
CLUES: Few-Shot Learning Evaluation in Natural Language Understanding
論文地址:
https://arxiv.org/pdf/2111.02570.pdf
論文代碼:
https://github.com/microsoft/CLUES
Introduction
benchmark 為研究人員提供了明確定義的挑戰(zhàn)和明確的指標(biāo),并推動了自然語言理解 (NLU) 的重大進(jìn)展。事實上,最近的幾個 benchmark,如 GLUE 和 SuperGLUE 已經(jīng)清楚地表明,許多當(dāng)前的大型模型可以在這些 benchmark 中可以相比或超過 NLU 任務(wù)的“人類水平”性能。
但當(dāng)前的 NLU benchmarks 有很大的局限性。首先,任務(wù)通常僅限于那些可以很容易地表示為分類任務(wù)的任務(wù)。其次,也是最重要的,在大多數(shù)這些 benchmark 中,給定大量特定于任務(wù)的標(biāo)記訓(xùn)練數(shù)據(jù),有些模型可以相比或超過“人類水平”的表現(xiàn)。相比之下,人類只需幾次演示就可以執(zhí)行復(fù)雜的任務(wù)。這些限制嚴(yán)重破壞了在 NLU 任務(wù)上實現(xiàn)廣泛的人類水平表現(xiàn)的主張。在這方面,CLUES benchmark 通過給出一些跨不同任務(wù)的訓(xùn)練示例提供了一個公平的設(shè)置來比較機(jī)器和人類的表現(xiàn)。?
創(chuàng)建此 benchmark 的目標(biāo)之一是創(chuàng)建一種標(biāo)準(zhǔn)化方法來評估 NLU 任務(wù)的少樣本學(xué)習(xí)方法。現(xiàn)在出現(xiàn)了各種各樣的 NLU 任務(wù)方法;許多方法依賴于大型的預(yù)訓(xùn)練自編碼、自回歸和 seq2seq 模型。為了適應(yīng)不同的模型類型和句子分類之外的更廣泛的任務(wù)集,作者將 CLUES 中的所有任務(wù)(包括句子分類任務(wù))作為“sets of spans”提取任務(wù);其中模型輸出一組文本 span。這使我們能夠為基準(zhǔn)中包含的多個任務(wù)(例如句子分類、問答和命名實體識別)提供一種新穎的統(tǒng)一度量標(biāo)準(zhǔn)。?
在 CLUES benchmark 中包含任務(wù)的關(guān)鍵標(biāo)準(zhǔn)之一是人類和機(jī)器性能之間存在明顯差距。作者提供了所有任務(wù)的人類和機(jī)器性能結(jié)果。人工評估表明,當(dāng)僅給出少數(shù)標(biāo)記示例甚至是在僅給出任務(wù)描述的零樣本設(shè)置時,人們能夠以高水平的性能執(zhí)行所有任務(wù)。
為了評估機(jī)器性能,作者考慮了一系列模型架構(gòu)、一系列模型大小以及一組可選的適應(yīng)技術(shù)。適應(yīng)技術(shù)包括經(jīng)典的全模型 fine-tuning、新穎的特定任務(wù) prompt-tuning 和 GPT-3 情況下的上下文學(xué)習(xí)。雖然出現(xiàn)了一些有趣的性能模式,但關(guān)鍵結(jié)果是當(dāng)前模型與 CLUES 基準(zhǔn)中任務(wù)的人類水平性能之間存在顯著差距,這突出表明需要研究改進(jìn) NLU 任務(wù)的小樣本學(xué)習(xí)。作者希望這種基準(zhǔn)將鼓勵 NLU 研究方法,這些方法可以通過少量示例學(xué)習(xí)和泛化到新任務(wù)。
CLUES
作者嘗試對不同的少樣本學(xué)習(xí)方法提供標(biāo)準(zhǔn)化的評估,并證明人類和機(jī)器在 NLU 任務(wù)的少樣本學(xué)習(xí)性能方面存在顯著差距。作者的目標(biāo)是促進(jìn)在彌合這一差距方面取得進(jìn)展。特別是,CLUES 旨在評估少樣本設(shè)置中跨不同 NLU 任務(wù)的通用模型。值得注意的是,作者沒有解決其他研究的主題的多任務(wù)或跨任務(wù)少樣本學(xué)習(xí)。
2.1 Benchmark Composition?
對于每種任務(wù) ,包含一個自然語言任務(wù)描述 ,帶有不同數(shù)量訓(xùn)練樣本的訓(xùn)練集 ,以及一個測試集 。每個訓(xùn)練樣本包括一段自然語言文本,一個自然語言問題以及可以為空的一系列候選答案(span)。在實驗中每個任務(wù)的訓(xùn)練樣本為 30,當(dāng)然也可以執(zhí)行 10-shot 20-shot 的設(shè)置。
2.2 Task Selection?
首先作者根據(jù)下表制定的原則來選擇任務(wù):
選擇的任務(wù)如下:
作者將這組任務(wù)分為三個不同的類別,即分類、序列標(biāo)記和機(jī)器閱讀理解,以涵蓋廣泛的 NLU 場景。作者通過將它們視為“span 提取”問題,進(jìn)一步將所有這些任務(wù)統(tǒng)一為單一格式。?
對于分類,作者同時關(guān)注句子分類和句子對分類;與實例級分類任務(wù)相反,序列標(biāo)注由于專注于 token 級分類和不同 token 之間的依賴關(guān)系而更具挑戰(zhàn)性。作者考慮了 NER 任務(wù);最后,作為任務(wù)的第三個子類,作者考慮機(jī)器閱讀理解(MRC)。MRC 任務(wù)需要機(jī)器根據(jù)給定的上下文回答問題。考慮到自然語言理解和(常識)知識推理的要求,這是一項具有挑戰(zhàn)性的任務(wù)。
2.3 Task Formulation
遵循表 2 中的任務(wù)制定原則,接下來描述作者如何從可用數(shù)據(jù)集中采樣和修改示例以形成我們的基準(zhǔn)。
Unifying NLU Tasks with a Single Format?預(yù)訓(xùn)練的語言模型通過在編碼器頂部添加特定于任務(wù)的預(yù)測層,利用單個基礎(chǔ)編碼器來執(zhí)行所有任務(wù)。這需要針對不同任務(wù)格式的不同預(yù)測層,例如,用于問答和其他 MRC 任務(wù)的 span 解碼器,以及用于文本分類任務(wù)的分類層。這進(jìn)一步需要針對不同任務(wù)的不同訓(xùn)練策略。
為了應(yīng)對這些挑戰(zhàn),作者將所有任務(wù)格式統(tǒng)一為給定問題和上下文作為輸入的一組 span 提取任務(wù),其中該集合也可能為空。span 將從上下文或問題中提取。雖然像 MNLI 或 SQuAD 這樣的大多數(shù)任務(wù)都有唯一的跨度(即大小為 1 的集合)作為答案,但其他像 CoNLL03 這樣的任務(wù)也可以有一個空集或一組超過 1 個元素的集作為答案。
Sampling of Training and Test Data?在這個 benchmark 中,作者對少樣本學(xué)習(xí)能力感興趣,因此我們只需要足夠的數(shù)據(jù)來可靠地估計它們的性能。為此,作者為每個任務(wù)使用現(xiàn)有的數(shù)據(jù)集,并使用帶標(biāo)簽的樣本來適應(yīng)設(shè)置。
值得注意的是,為了為這個基準(zhǔn)建立一個真正的小樣本學(xué)習(xí)設(shè)置,我們不包括任何任務(wù)的單獨驗證集。這是為了防止用戶使用驗證集進(jìn)行訓(xùn)練,這會極大地改變可用監(jiān)督和模型性能的數(shù)量 ,并相應(yīng)地使不同模型的比較變得困難。
鑒于大型預(yù)訓(xùn)練模型在不同隨機(jī)種子和訓(xùn)練示例的小樣本設(shè)置中的性能差異很大,我們?yōu)闈M足上述子集包含標(biāo)準(zhǔn)的每個樣本提供五個不同的訓(xùn)練分割。
Other sampling strategies?除了隨機(jī)抽樣,作者還考慮通過對抗性擾動上下文/提示或通過選擇與參考模型(例如 BERT 或 RoBERTa)相關(guān)的難題來創(chuàng)建更困難的任務(wù)版本。然而,作者沒有采用這些方法,原因如下:
1)我們觀察到,來自這種對抗方法的擾動示例通常是不自然的,人類無法閱讀。
2)對抗性擾動和選擇都需要參考模型,這違反了我們在表中的模型不可知任務(wù)制定原則。
2.4 Evaluation Metric
因為作者將所有任務(wù)統(tǒng)一為 span 提取,因此作者設(shè)計了一個統(tǒng)一 p,r 度量標(biāo)準(zhǔn),可用于評估基準(zhǔn)中的所有任務(wù):
p,a 分別表示模型預(yù)測的 span 集合以及對應(yīng)的 groud-truth 答案集合;函數(shù) p,r?分別表示準(zhǔn)確率和召回率;這個指標(biāo)?S1?根據(jù)元素之間的精確字符串匹配計算基于實例的分?jǐn)?shù)。對于由多個實例組成的測試集,整體 S1score 計算為所有實例的 S1scores 的平均值。對于分類任務(wù),預(yù)測和真實答案集由單個元素組成,這使得 S1 分?jǐn)?shù)相當(dāng)于此類任務(wù)的準(zhǔn)確性。在整篇論文中,我們報告了 benchmark 中所有任務(wù)的 S1scores。
Human Performance
人類表現(xiàn)已經(jīng)在幾個 NLU 任務(wù)上得到了報告,然而,用于估計人類表現(xiàn)的注釋方法在向人類提供多少關(guān)于任務(wù)的信息方面并不總是一致的。我們估計人類的表現(xiàn),使其在不同的任務(wù)中保持一致,并且與機(jī)器學(xué)習(xí)模型在少樣本設(shè)置中的表現(xiàn)相當(dāng)。我們?yōu)榉菍<易⑨屨咛峁┝艘恍┦纠秃喍痰娜蝿?wù)描述。在零樣本場景中,注釋者沒有收到任何示例。
3.1 Human Performance Estimates
為了計算人類的表現(xiàn),我們測量了每個注釋者的表現(xiàn),并報告了三個眾包工作者的平均值和標(biāo)準(zhǔn)差。我們的測試集上的人類表現(xiàn)如下表所示:
與零樣本設(shè)置相比,SST 和 ReCoRD 任務(wù)在少樣本設(shè)置中沒有表現(xiàn)出任何改進(jìn)或改進(jìn)非常小。這意味著人類注釋者主要依靠他們自己的知識和簡短的任務(wù)描述來完成這些任務(wù)。?
另外,雖然平均而言,在大多數(shù)任務(wù)的訓(xùn)練步驟中,隨著更多數(shù)據(jù),人類表現(xiàn)往往會提高,但我們觀察到,在某些情況下,人類表現(xiàn)往往會下降當(dāng)訓(xùn)練示例的數(shù)量從 20 增加到 30 時,任務(wù)會變得很有趣。這是一個有趣且令人驚訝的觀察結(jié)果,并表明需要進(jìn)行額外的研究來更好地了解人類如何利用所提供的示例以及是否有一點,超過這一點,提供更多示例可能會導(dǎo)致沒有甚至是負(fù)值。
Results and Discussions
根據(jù)上述實驗結(jié)果,作者的一些結(jié)論:
Fine-tuning strategies: 對于分類任務(wù)(SST-2 和 MNLI),我們發(fā)現(xiàn)基于提示的微調(diào)在整體上明顯優(yōu)于其經(jīng)典的微調(diào)對應(yīng)物。然而,這種優(yōu)勢在兩種策略表現(xiàn)相似的完全監(jiān)督設(shè)置中消失了。
Model capacity: 在具有足夠訓(xùn)練數(shù)據(jù)的全監(jiān)督設(shè)置中,不同模型的性能通常隨著模型大小的增加而提高。然而,對于小樣本設(shè)置,我們沒有觀察到模型大小對經(jīng)典模型性能的任何一致趨勢或影響。
Training labels: 小樣本設(shè)置和完全監(jiān)督設(shè)置之間存在顯著的性能差距。對于經(jīng)典的微調(diào),增加了一些訓(xùn)練樣例并沒有一致的性能提升趨勢;而有限的額外標(biāo)記示例可以通過基于提示的微調(diào)來提高模型性能——這表明后一種方法在為小樣本設(shè)置利用額外的標(biāo)記示例方面更有效。
Model variance: 對于經(jīng)典的微調(diào),觀察到更大的模型在不同的訓(xùn)練分割上具有顯著更高的性能差異,BERTBase(考慮的最小模型)在所有任務(wù)中表現(xiàn)出最小的差異 6。有趣的是,對于基于提示的微調(diào),較大的模型具有較小的方差,因為它們可能會通過預(yù)訓(xùn)練的語言建模頭更有效地學(xué)習(xí)。
Task difficulty: 對于像 SST-2 這樣的簡單任務(wù),基于提示的調(diào)優(yōu)和基于 GPT-3 的上下文學(xué)習(xí)的少鏡頭性能非常具有競爭力,并且接近(甚至優(yōu)于)人類性能。相比之下,對于 NER 和 MRC 等更復(fù)雜的任務(wù),大多數(shù)不同大小的預(yù)訓(xùn)練模型獲得接近隨機(jī)的性能。因此,為此類任務(wù)開發(fā)更有效的小樣本學(xué)習(xí)方法非常重要。
Model vs. human performance: 在完全監(jiān)督的設(shè)置中,所有模型在所有考慮的任務(wù)上都大大超過了人類的表現(xiàn)。然而,在少鏡頭設(shè)置中,模型性能與人類性能之間存在巨大差距。唯一的例外是 SST-2,其中很少有 GPT-3 的表現(xiàn)優(yōu)于人類。我們?nèi)匀槐A暨@項任務(wù),因為我們觀察到人類與所有其他模型之間存在顯著的少鏡頭性能差距。此外,對于更復(fù)雜的任務(wù),如 NER 和 MRC,這種差距更為明顯,其中人類僅使用少數(shù)示范性示例就表現(xiàn)得很好,而所有 PLM 的表現(xiàn)都接近隨機(jī)。
Conclusion and Future Work
這項工作的動機(jī)是缺乏標(biāo)準(zhǔn)化的基準(zhǔn)和原則來評估少樣本 NLU 模型。更重要的是,該 benchmark 旨在公平比較人類和機(jī)器在不同 NLU 任務(wù)上的表現(xiàn),給出一些示范性示例。?
在這項工作中,我們的重點僅限于自然語言理解,我們只為人類和機(jī)器提供文本信息以進(jìn)行性能比較。雖然人類從包括視覺線索和自然語言在內(nèi)的多種模態(tài)中獲取知識,但預(yù)訓(xùn)練的語言模型只能訪問文本信息。因此,這項工作的自然延伸是在多模態(tài)設(shè)置中對模型和機(jī)器的小樣本學(xué)習(xí)能力進(jìn)行基準(zhǔn)測試。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的NeurIPS 2021 | 微软研究院提出CLUES,用于NLU的少样本学习评估的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想拯救者无法开机 怎么装系统 联想拯救
- 下一篇: 引入N-gram改进Transforme