日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2021 | 为什么机器阅读理解模型会学习走捷径?

發布時間:2024/10/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2021 | 为什么机器阅读理解模型会学习走捷径? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者?|?Maple小七

學校?|?北京郵電大學碩士生

研究方向?|?自然語言處理

雖然當前的 MRC 模型在不少閱讀理解 benchmark 上接近甚至超越了人類表現,但有許多研究都表明當前的 MRC 模型是脆弱的、不可靠的。本文主要探討了 MRC 模型推理傾向于走捷徑的問題,作者構造了兩個數據集對比分析了捷徑問題的存在對模型的表現和學習過程的影響,實驗結果表明捷徑問題會阻礙 MRC 模型學習真正的“閱讀理解”能力。

論文標題:

Why Machine Reading Comprehension Models Learn Shortcuts?

論文鏈接:

http://arxiv.org/abs/2106.01024

代碼鏈接:

https://github.com/luciusssss/why-learn-shortcut

Introduction

機器閱讀理解(MRC)任務通過問答的形式來衡量模型是否理解了自然語言文本,自 BERT 出現以來,許多基于預訓練的 MRC 模型在一些 benchmark 數據集上接近甚至超越了 human performance,以至于不少論文通常會在結論中表述模型“理解(comprehend)”了文本的“含義(meaning)”。

然而深度學習模型終究只是統計模型,當前的 MRC 模型本質上僅僅是通過復雜的函數來擬合文本中的統計線索,從而預測答案而已,ACL 2020 最佳主題論文 Climbing towards NLU [1] 就指出僅僅在文本世界中構建模型而不與真實世界建立聯系的話,模型永遠只能學到“form”,學不到“meaning”。

因此近兩年也出現了不少分析、批判與反思當前 MRC 模型存在的問題的論文,其中 What Makes Reading Comprehension Questions Easier? [2] 指出當前的MRC 模型其實并沒有以我們預想的方式來推理答案,MRC 模型會學到很多捷徑(shortcuts),或者說是一些顯而易見的規律。

比如之前講過的 Position Bias in Question Answering [3] 就發現 MRC 模型會通過位置信息來尋找答案,因為 SQuAD 的答案大多集中于整篇文章的第一句話,所以 MRC 模型會傾向于預測答案大概率在第一句話中,當我們把第一句話移到文末時,模型的表現就會急劇下降,然而矛盾的是,曾經有一些論文會將答案的位置信息當作 MRC 模型的輸入特征,雖然人類在進行閱讀理解時,推導答案的位置并不構成“理解”。

1.1 What is shortcuts?

當一個問題可以通過走捷徑來回答的時候,我們就稱該問題是捷徑問題。上圖是一個簡單的例子,我們希望 MRC 模型可以理解come out和begun之間的語義一致性,并通過建立Scholastic journal,Scholastic magazine以及one-page journal之間的共指關系(co-reference)來推導出正確答案是September 1876。

但實際上,模型可以直接識別出September 1876是整個片段中唯一可以回答When類問題的時間實體,也就是僅通過簡單的疑問詞匹配就可以正確回答問題,而不需要共指消解之類的復雜推導。利用這種簡單的線索推導出的答案當然是不可靠的,如果文本中出現了兩個時間實體,MRC 模型很可能就不知道哪個時間實體是答案了。

由于捷徑的存在,模型可以不用真正理解問題和片段的含義就推斷出答案,比如 Did the Model Understand the Question? [4] 就發現把問題或片段的重要部分去掉以至于問題變得不可回答之后,MRC 模型仍舊能夠給出正確答案,Adversarial Examples for Evaluating Reading Comprehension Systems [5] 嘗試構建對抗樣本來攻擊 MRC 模型,實驗結果表明當前的 MRC 模型是非常脆弱的,Assessing the Benchmarking Capacity of MRC Datasets [6] 也指出了當前的 benchmark 并沒有真正衡量所謂的“閱讀理解”能力。

MRC 模型走捷徑的行為其實和人類有幾分相似,我們在考試的時候遇到一個不會的題,總會去尋找一些無關線索來推導答案,比如三短一長選最長,參差不齊就選 C,以及數學考試中常見的排除法、特值法、估算法等。但我們在學習知識的過程中并不會采用這些技巧,因為這些技巧并不是真正的知識。

而模型與人類不同的地方在于,模型的學習行為是非常“懶”的,當前所有深度學習模型的優化算法都是隨機梯度下降,即尋找當前狀態的最優路徑,因此模型會利用這些捷徑來解決當下的最容易的問題,而不是像人一樣去理解問題背后蘊含的知識。

不過,這并不代表模型就不能超越人類表現,機器雖然不具備人類的常識、世界知識和推理能力,但機器可以通過分析上百萬張試卷來記憶足夠多的技巧和捷徑,最后甚至能取得接近人類水平的成績(NLP 能夠做到完成英語四六級的閱讀理解題目嗎?[7]?)。

1.2 How to deal with shortcuts?

雖然已經有許多論文證實了捷徑現象的存在,同時也提出了一些辦法來緩解這個問題,但還沒有論文嘗試探討 MRC 模型是如何學到這些捷徑技巧的,我們希望可以找到一個定量的方式來分析模型學習捷徑問題和非捷徑問題的內在機制。

為了更好地研究這個問題,我們遇到的第一個障礙就是目前還沒有一個數據集包含訓練樣本是否存在捷徑的標簽,因此很難分析模型到底在多大程度上受到了捷徑樣本的影響,也很難分析 MRC 模型在回答問題時是否真的走了捷徑。

本文以 SQuAD 數據集為基礎,通過分別設計兩個合成的 MRC 數據集來解決上述問題,在這兩個數據集中,每個樣本包含一個原樣本(passage,question)的捷徑版本(shortcut version)挑戰版本(challenging version),在構建數據集的時候,我們需要保證兩個版本在長短、風格、主題、詞表、答案類型等方面保持一致,從而保證捷徑的存在與否是唯一的獨立變量,最后,作者在這兩個數據集上進行了幾個實驗來分析了捷徑問題對 MRC 模型性能和學習過程的影響。

Synthetic Dataset Construction

在數據集的挑戰版本中,作者將釋義/復述(parphrasing)作為我們希望模型具備的推理能力,即能夠識別不同詞匯表達的同一個含義,因為大多數 MRC 數據集都希望模型能夠學習到釋義的能力。

在數據集的捷徑版本中,作者考慮兩種捷徑:疑問詞匹配(question word matching, QWM)和簡單匹配(simple matching, SpM),QWM 是指模型可以通過識別疑問詞類型來匹配答案,SpM 是指模型可以通過答案所在的句子和問題的詞匯重疊來匹配答案。

作者在 SQuAD 數據集的基礎上構造上述兩個數據集,通過 back-translation 來獲取釋義句,最后得到的?QWM-Para 數據集和?SpM-Para 數據集的訓練/測試集的大小分別為 6306/766 和 7562/952,下面簡單講解數據集的構建流程,更詳細的構建細節可參考原文。

3.1 QWM-Para Dataset

下圖是 QWM-Para 數據集的構建流程,以下圖為例,在捷徑版本中,模型可以直接通過疑問詞Who與唯一的人物實體Beyonce的匹配來推斷出答案是Beyonce,而在挑戰版本中,另一個人物實體Lisa構成了干擾項,這可以避免模型通過簡單的疑問詞匹配的捷徑來推斷答案,從而期望模型可以識別出named the most influential music girl和rated as the most powerful female musician之間的釋義關系。

3.2?SpM-Para Dataset

下圖是SpM-Para數據集的構建流程,在下例的捷徑版本中,模型可以通過簡單的詞匯匹配rated as the most powerful female musician或者通過語義匹配named as the most influential music girl來獲取答案Beyonce,而在挑戰版本中,我們只提供了原文的釋義版本,從而避免了模型通過簡單的詞匯匹配獲取答案,這對模型的釋義能力提出了要求。

How the Shortcut Questions Affect Model Performance?

模型是如何學習到捷徑技巧的?我們可以簡單地猜測是因為數據集中的大部分問題都是捷徑樣本,因此模型會優先學習捷徑技巧。下面我們通過觀察使用不同比例的捷徑樣本訓練出的模型分別在捷徑測試集和挑戰測試集上的表現,來確定模型在多大程度上受到了捷徑樣本的影響。

作者訓練了兩個經典的 MRC 模型:BiDAF 和 BERT,如下圖所示,當我們將數據集中的捷徑問題的比例從 0% 增加到 90% 時,MRC 模型在挑戰樣本上的表現都出現了大幅下降,值得關注的是,針對 BiDAF 模型,即使數據集全是挑戰樣本,BiDAF 模型在捷徑樣本上的表現也非常好,增加捷徑樣本僅能帶來很小的提升,但卻會讓模型在挑戰樣本上的表現大幅下降,這表明捷徑問題的存在阻礙了釋義技巧的學習。

Whether Question Word Matching is Easier to Learn than Paraphrasing?

我們可以注意到,當訓練集的捷徑樣本和挑戰樣本的比例為 時,MRC模型還是會在捷徑問題上取得更好的表現,這表明模型傾向于優先擬合捷徑樣本,這表明學習詞匯匹配比學習釋義要簡單得多。為了驗證這個想法,作者分別在捷徑數據集和挑戰數據集上訓練 MRC 模型,然后比較在訓練集上達到同等水平所需要的迭代次數和參數量。

實驗結果如下圖所示,我們可以發現 MRC 模型在捷徑數據集上訓練的迭代次數要更少,同時所需要的參數量也更少,這表明釋義能力的確是更難學到的。

How do Models Learn Shortcuts?

前面我們通過實驗證明了捷徑樣本確實更容易被擬合,模型更傾向于優先學習捷徑技巧,我們可以猜想在訓練的早期階段,捷徑樣本所給出的梯度是更明確的(方差更小),因此模型更傾向于向擬合捷徑樣本的方向做梯度下降,然而在訓練后期,模型將受困于捷徑技巧的局部最優解,無法進一步學習更難的釋義能力。

同一個 MRC 模型在捷徑數據集和挑戰數據集上的表現差距越大,我們就可以認為該模型學到了更多的捷徑技巧,基于此,作者嘗試分別在包含 10% 捷徑樣本和 90% 捷徑樣本的訓練集上訓練 MRC 模型。實驗結果如下圖所示,可以發現在訓練的早期階段,模型在捷徑數據集和挑戰數據集上的表現差異逐漸增大,這一結果表明,模型在訓練的早期階段傾向于學習捷徑技巧,從而在捷徑樣本上的表現提升得更快。

到了訓練的中后期階段,當訓練集只包含 10% 的捷徑樣本時,這一差異轉而會逐漸下降,這表明模型開始更多地學習更難的釋義技巧,此時挑戰樣本對梯度的貢獻變得更為明顯,但如果訓練集包含了 90% 的捷徑樣本,這一差異會趨于平穩,這說明模型的學習路線依舊被捷徑樣本所主導,模型無法通過僅有的 10% 的挑戰樣本學習釋義技巧,即少數未解決的挑戰性樣本無法激發模型去學習更復雜的釋義技巧。

Discussion

MRC 模型走捷徑問題其實反映了當前的模型優化算法的一個特點,即模型會優先學習更簡單的樣本,或者說優先擬合更簡單的決策邊界或概率分布,但這些簡單的樣本可能會將模型帶入不太好的局部最優解,從而限制模型去解決更困難的問題,導致模型“安于現狀”。

從閱讀理解任務本身的角度來看,“閱讀理解”本身就是很泛的,很難定義清楚的能力,我們并不清楚“理解”到底包含了哪些具體了能力,因此我們提供的訓練數據和標簽其實也并不能真正告訴模型我們希望它學習到什么能力,同時模型也并不一定會按照我們預期的方式來擬合數據集。

有趣的是,課程學習(Curriculum Learning, CL)恰好主張讓模型先從容易的樣本開始學習,并逐漸進階到復雜的樣本和知識,個人認為課程學習其實有一個隱含假設,就是解決困難問題所需的能力應該同樣能夠解決簡單問題,如果解決簡單問題和困難問題所需要的能力其實是兩種不同的能力的話,課程學習可能就會失效。從這個角度來看,機器閱讀理解在某種程度上是多任務學習和課程學習的混合體,因為“閱讀理解”包含了不同角度的理解能力,每種理解能力又可以分為不同的層次。

總體來說,雖然從指標上看,當前的 MRC 模型已經很厲害了,但當前的 SOTA 可能僅僅是離月亮最近的一個樹梢而已。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

參考文獻

[1] https://www.aclweb.org/anthology/2020.acl-main.463.pdf

[2] https://arxiv.org/abs/1808.09384

[3] https://zhuanlan.zhihu.com/p/319443331

[4] https://arxiv.org/pdf/1805.05492

[5] https://arxiv.org/abs/1707.07328

[6] https://arxiv.org/pdf/1911.09241.pdf

[7] https://www.zhihu.com/question/457524162/answer/1866319028

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

?????稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

?????投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的ACL 2021 | 为什么机器阅读理解模型会学习走捷径?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。