日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器阅读(一)--整体概述

發布時間:2024/7/5 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器阅读(一)--整体概述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

https://plmsmile.github.io/2019/03/30/54-mrc-models/

主要包含:機器閱讀的起因和發展歷史;MRC數學形式;MRC與QA的區別;MRC的常見數據集和關鍵模型

發展動機

傳統NLP任務

1) 詞性分析 part-of-speech tagging :判斷詞性

2) 命名實體識別 named entity recognition 識別實體

3) 句法依存 sytactic parsing 找到詞間關系、語法結構信息

4) 指代消解 coreference resolution

閱讀理解動機

  • 讓機器理解人類語言是AI領域長期存在的問題

  • 閱讀理解能綜合評估各項NLP任務,是一個綜合性任務

  • 閱讀理解探索更加深層次的理解

  • 回答問題是檢測機器是否讀懂文章最好的辦法

  • 歷史發展

    早期系統

    1. QUALM系統 Lehnert,1977年

    2. 早期數據集 Hirschman,1999年

    • 小學文章,3年級-6年級
    • 60篇 - 60篇:dev - test
    • 只需要返回包含正確答案的句子即可
    • who what when where why

    3. Deep Read系統 Hirschman,1999年

    • rule-based bag-of-words,基于規則的詞袋模型
    • 淺層語言處理:詞干提取、語義類識別、指代消解

    4. QUARC系統 Riloff and Thelen,2000年

    • rule-based
    • 基于詞匯和語義對應

    還有3和4的結合(Charniak,2000年),準確率在30%-40%左右。

    機器學習時代

    1. 三元組

    (文章,問題,答案)

    2. 兩個數據集

    MCTest:四選一;660篇科幻小說

    ProcessBank:二分類;585問題,200個段落;生物類型文章;需要理解實體關系和事件

    3. 傳統規則方法

    不使用訓練數據集

    1)啟發式的滑動窗口方法

    計算word overlap、distance information

    2)文本蘊含方法

    用現有的文本蘊含系統,把(問題,答案)對轉化為一個statement。

    3)max-margin 學習框架,使用了很多語言特征:

    句法依存、semantic frames、 指代消解、 discourse relation和 詞向量等特征。

    4. 機器學習方法

    機器學習方法比規則方法好,但是任然有很多不足:

    1)依賴于現有語言特征工具

    • 許多NLP任務沒有得到有效解決
    • 任務泛化性差,一般在單一領域訓練
    • 語言特征任務添加了噪聲

    2)很難模擬人類閱讀,難以構建有效特征

    3)標記數據太少,難以訓練出效果好的統計模型

    深度學習時代

    深度學習火熱于2015年,DeepMind的Hermann大佬提出了一種新型低成本構建大規模監督數據的方法,同時提出了attention-based LSTM。

    神經網絡效果較好,能更好地在詞/句子上做match。

    1) CNN/Daily-Mail數據集

    • 把文章標題/摘要中的名詞mask掉,再提問這個名詞
    • 使用NER和指代消解等技術
    • 半合成的數據集,存在誤差,影響發展

    2) SQuAD數據集

    • 107785問答數據,546文章
    • 第一個大規模機器閱讀理解數據集
    • 推動了很多機器閱讀模型的發展

    3) 深度學習的優點

    • 不依賴于語言特征工具,避免了噪聲誤差等
    • 傳統NLP方法特征稀少、難以泛化
    • 不用去手動構建特征, 工作重心在模型設計上

    任務形式

    閱讀理解任務看作是一種監督學習任務,目的是學習一種映射關系: f:(p,q)af:(p,q)→a

    自然形式

    自然語言回答,沒有固定的形式free-form answer。沒有明確統一的評估指標。有如下幾個:

    • BLEU(注意看新文章,好像說這個評測不是很好)
    • Meteor
    • ROUGE

    MRC和QA的比較

    機器閱讀理解是Question Answering的一個特例。

    1) 相同點:問題形式、解決方法和評估方法

    2) 不同點

    問答系統在于:

    • 旨在構建問答系統,依賴于各種資源
    • 資源包括:結構化數據、非結構化文本、半結構化表格和其他形式的資源
    • QA致力于:尋找和識別有用資源;集成各種資源的信息;研究人們常問的問題

    機器閱讀在于:

    • 文本問答
    • 需要去理解文本信息
    • 答案只依賴于文章
    • 會設計不同類型問題去測試機器對文章不同方面的理解

    數據集和模型

    機器閱讀的發展原因:大規模數據和端到端神經網絡模型的出現。

    數據集促進了模型,模型又進一步促進了數據集的發展。

    主要模型

    • Attentive Reader
    • Stanford Attentive Reader
    • Match-LSTM
    • BiDAF
    • R-Net
    • QANet
    • BiDAF+self-attn+ELMo
    • BERT

    CNN/Daily Mail

    完型填空,名詞

    MCTest

    四選一,MCTest論文

    SQuAD 1.1

    span預測。SQuAD1.1有如下缺點:

    • 問題是根據文章提出的,降低了回答問題的難度
    • 答案缺少yes/no、計數、why、how等問題類型
    • 答案很短,只有span類型
    • 缺少多句推理,SQuAD只需要一個句子便能回答

    TriviaQA

    span預測。TriviaQA和數據集論文

    • 從web和維基百科中構建,先收集QA,再收集P;更容易構建大規模數據集
    • 650k (p, q, a),文章p很長,20倍SQuAD
    • 優點:解決了SQuAD問題依賴于文章的問題
    • 缺點:不能保證文章一定包含該問題,這影響訓練數據質量

    RACE

    四選一。中國初高中試題。RACE和數據集論文

    NarrativeQA

    free-form答案形式。NarrativeQA和數據集論文

    • 書籍/電影:原文和摘要
    • 摘要問答和原文問答,平均長度分別是659和62528
    • 如果是原文,需要IR提取相關片段
    • free-form 難以評估

    SQuAD 2.0

    Span預測。加入no-answer。SQuAD 2.0和數據集論文

    HotpotQA

    113k問答數據,可解釋的多步推理問答。HotpotQA和數據集論文

    • 要對多個文檔進行查找和推理才能回答問題
    • 問題多樣化,不局限于已有知識庫和知識模式
    • 提供句子級別的支持推理線索supporting fact,系統能利用強大的監督知識去推理回答,并對結果作出解釋
    • 提供了新型模擬比較型問題,來測試 QA 系統提取相關線索、執行必要對比的能力
    • 評估方法1:給10個片2個相關,8個不相關;自行識別相關片段并進行回答
    • 評估方法2:利用整個維基百科去進行回答

    參考文獻

    • NEURAL READING COMPREHENSION AND BEYOND
    </div> 創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的机器阅读(一)--整体概述的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。