机器阅读(一)--整体概述
https://plmsmile.github.io/2019/03/30/54-mrc-models/
主要包含:機器閱讀的起因和發展歷史;MRC數學形式;MRC與QA的區別;MRC的常見數據集和關鍵模型
發展動機
傳統NLP任務
1) 詞性分析 part-of-speech tagging :判斷詞性
2) 命名實體識別 named entity recognition 識別實體
3) 句法依存 sytactic parsing 找到詞間關系、語法結構信息
4) 指代消解 coreference resolution
閱讀理解動機
讓機器理解人類語言是AI領域長期存在的問題
閱讀理解能綜合評估各項NLP任務,是一個綜合性任務
閱讀理解探索更加深層次的理解
回答問題是檢測機器是否讀懂文章最好的辦法
歷史發展
早期系統
1. QUALM系統 Lehnert,1977年
2. 早期數據集 Hirschman,1999年
- 小學文章,3年級-6年級
- 60篇 - 60篇:dev - test
- 只需要返回包含正確答案的句子即可
- who what when where why
3. Deep Read系統 Hirschman,1999年
- rule-based bag-of-words,基于規則的詞袋模型
- 淺層語言處理:詞干提取、語義類識別、指代消解
4. QUARC系統 Riloff and Thelen,2000年
- rule-based
- 基于詞匯和語義對應
還有3和4的結合(Charniak,2000年),準確率在30%-40%左右。
機器學習時代
1. 三元組
(文章,問題,答案)
2. 兩個數據集
MCTest:四選一;660篇科幻小說
ProcessBank:二分類;585問題,200個段落;生物類型文章;需要理解實體關系和事件
3. 傳統規則方法
不使用訓練數據集
1)啟發式的滑動窗口方法
計算word overlap、distance information
2)文本蘊含方法
用現有的文本蘊含系統,把(問題,答案)對轉化為一個statement。
3)max-margin 學習框架,使用了很多語言特征:
句法依存、semantic frames、 指代消解、 discourse relation和 詞向量等特征。
4. 機器學習方法
機器學習方法比規則方法好,但是任然有很多不足:
1)依賴于現有語言特征工具
- 許多NLP任務沒有得到有效解決
- 任務泛化性差,一般在單一領域訓練
- 語言特征任務添加了噪聲
2)很難模擬人類閱讀,難以構建有效特征
3)標記數據太少,難以訓練出效果好的統計模型
深度學習時代
深度學習火熱于2015年,DeepMind的Hermann大佬提出了一種新型低成本構建大規模監督數據的方法,同時提出了attention-based LSTM。
神經網絡效果較好,能更好地在詞/句子上做match。
1) CNN/Daily-Mail數據集
- 把文章標題/摘要中的名詞mask掉,再提問這個名詞
- 使用NER和指代消解等技術
- 半合成的數據集,存在誤差,影響發展
2) SQuAD數據集
- 107785問答數據,546文章
- 第一個大規模機器閱讀理解數據集
- 推動了很多機器閱讀模型的發展
3) 深度學習的優點
- 不依賴于語言特征工具,避免了噪聲誤差等
- 傳統NLP方法特征稀少、難以泛化
- 不用去手動構建特征, 工作重心在模型設計上
任務形式
閱讀理解任務看作是一種監督學習任務,目的是學習一種映射關系: f:(p,q)→af:(p,q)→a
自然形式
自然語言回答,沒有固定的形式free-form answer。沒有明確統一的評估指標。有如下幾個:
- BLEU(注意看新文章,好像說這個評測不是很好)
- Meteor
- ROUGE
MRC和QA的比較
機器閱讀理解是Question Answering的一個特例。
1) 相同點:問題形式、解決方法和評估方法
2) 不同點
問答系統在于:
- 旨在構建問答系統,依賴于各種資源
- 資源包括:結構化數據、非結構化文本、半結構化表格和其他形式的資源
- QA致力于:尋找和識別有用資源;集成各種資源的信息;研究人們常問的問題
機器閱讀在于:
- 文本問答
- 需要去理解文本信息
- 答案只依賴于文章
- 會設計不同類型問題去測試機器對文章不同方面的理解
數據集和模型
機器閱讀的發展原因:大規模數據和端到端神經網絡模型的出現。
數據集促進了模型,模型又進一步促進了數據集的發展。
主要模型
- Attentive Reader
- Stanford Attentive Reader
- Match-LSTM
- BiDAF
- R-Net
- QANet
- BiDAF+self-attn+ELMo
- BERT
CNN/Daily Mail
完型填空,名詞
MCTest
四選一,MCTest論文
SQuAD 1.1
span預測。SQuAD1.1有如下缺點:
- 問題是根據文章提出的,降低了回答問題的難度
- 答案缺少yes/no、計數、why、how等問題類型
- 答案很短,只有span類型
- 缺少多句推理,SQuAD只需要一個句子便能回答
TriviaQA
span預測。TriviaQA和數據集論文
- 從web和維基百科中構建,先收集QA,再收集P;更容易構建大規模數據集
- 650k (p, q, a),文章p很長,20倍SQuAD
- 優點:解決了SQuAD問題依賴于文章的問題
- 缺點:不能保證文章一定包含該問題,這影響訓練數據質量
RACE
四選一。中國初高中試題。RACE和數據集論文
NarrativeQA
free-form答案形式。NarrativeQA和數據集論文
- 書籍/電影:原文和摘要
- 摘要問答和原文問答,平均長度分別是659和62528
- 如果是原文,需要IR提取相關片段
- free-form 難以評估
SQuAD 2.0
Span預測。加入no-answer。SQuAD 2.0和數據集論文
HotpotQA
113k問答數據,可解釋的多步推理問答。HotpotQA和數據集論文
- 要對多個文檔進行查找和推理才能回答問題
- 問題多樣化,不局限于已有知識庫和知識模式
- 提供句子級別的支持推理線索supporting fact,系統能利用強大的監督知識去推理回答,并對結果作出解釋
- 提供了新型模擬比較型問題,來測試 QA 系統提取相關線索、執行必要對比的能力
- 評估方法1:給10個片2個相關,8個不相關;自行識別相關片段并進行回答
- 評估方法2:利用整個維基百科去進行回答
參考文獻
- NEURAL READING COMPREHENSION AND BEYOND
總結
以上是生活随笔為你收集整理的机器阅读(一)--整体概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python实现大批量pdf格式论文的重
- 下一篇: 2018届校招面经精选