日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)

發布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理的未来之路(周明老师,CCF-GRIR,笔记) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 1.什么叫自然語言處理
    • 1.1 困難
    • 1.2歷史
    • 1.3 智能
    • 1.4 經典nlp任務的進展
  • 02.技術體系
    • 2.1 詞
    • 2.2 句子
  • 03 未來發展
    • 3.1 資源豐富的任務---中英翻譯
    • 3.2 資源少的任務
    • 3.3 多輪問題--多輪對話
  • 4 未來之路

  • 自然語言:規則—>統計—>神經網絡
  • 現在:黃金時代
  • 缺陷:
    • 過度依賴數據和計算資源
    • 建模、可解釋性、推理不足

1.什么叫自然語言處理

  • 自然語言處理

自然語言處理就是用計算機對人類語言進行處理,使得計算機具備人類的聽、說、讀、寫能力,它是未來人工智能技術最為關鍵的核心之一。比爾·蓋茨說過,“自然語言處理是人工智能皇冠上的明珠,如果我們能夠推進自然語言處理,就可以再造一個微軟。”

1.1 困難

  • 困難可想而知
    • 詞同意義不同
    • 人:有背景知識,可以理解
    • 機器:缺失背景知識

1.2歷史

1.3 智能

1.4 經典nlp任務的進展

  • 聊天機器人:小冰
    • 對話23輪以上
  • SQuAD:閱讀理解
  • WMT-2017機器翻譯
  • CoNLL(語法檢查)會議名
    • 有很多評測任務
    • 命名實體識別之類的

02.技術體系

2.1 詞

  • 詞的編碼
    • 方法:
      • CBOW
        • 周圍的詞預測當前的詞
      • skip-gram
        • 當前的詞預測周圍的詞
    • 結果:獲得每一個詞穩定的向量表示–語義表示

2.2 句子

  • 句子的編碼
    • 方法

      • RNN
        • 從左到右對句子建模,每個詞對應一個隱藏狀態,
          • 該狀態:代表了從句首到當前詞的語義信息,
          • 句尾:全句子語義
        • 補充:雙向RNN中
          • 前向RNN的狀態:句首到當前詞
          • 后向:句末到當前詞
          • 拼接:雙向信息
      • CNN
        • 詞嵌入
        • 位置嵌入
        • 卷積
        • —>向量表示:對應句子的語義
      • ATTENTION:注意力機制
        • 綜合考慮:當前狀態下對飲給的編碼的每一個隱藏狀態,加權平均–>體現當前的動態輸入
      • transformer
        • 引入自編碼:一個詞與周圍詞建立相似
        • 引入多頭注意力機制:可以引入多種特征表達,所以編碼效果或者編碼的信息更加豐富
      • 預訓練模型
        • 最早:靜態詞:不論上下文,只看詞本身的表征(多義詞也只有一個
        • 下面的都是根據上下文的唯一表征
        • ELMo:
          • 雙向:可左到右,也可右到左
          • 每一層對應的節點并起來:雙向信息–當前詞在上下文的語義表示
          • 這個語義+詞本身的嵌入–進行后續任務,性能提升
        • Bert
          • 它用左邊、右邊的信息來預測最外部的詞的信息
          • 它也可以判斷下一句是真的下一句還是偽造的下一句
          • 用兩種方式對句子每一個詞進行編碼
          • 得到的訓練結果:表征了這個詞在上下文中的語義表示。
          • 基于這樣的語義表示,
            • 就可以判斷兩個句子的關系,
              • 比如說是不是附屬關系,
            • 判斷一個句子的分類
              • (例如Q&A中,判斷回答對應的邊界是不是對應提問)
            • 對輸入的每一個詞做一個標注(序列標注
              • 結果就得到一個詞性標注(實體標注。
        • 其他
          • GPT-2,以及最近的XLNET,以及UNILM、MASS、MT-DNN、XLM
          • 也都是依據上下文獲得唯一表征
          • UNILM(微軟研究院)
            • 同時訓練得到類似Bert和GPT
          • MASS(微軟)
            • 以encoder-decoder訓練
            • 在機器翻譯上表現良好
          • MT-DNN
            • 強調多任務學習
          • XLM
            • 學習多語言Bert
            • 適用于跨語言
    • 基于這樣的表征,編碼、解碼機制

      • 序列–編碼–>向量(表征)–解碼–>序列
      • 翻譯、序列標注等
  • 預訓練模型的啟發
    • 過去:期望用基于知識的方法來充實當前的輸入,但做的不好
    • 現在:
      • 預訓練模型:學習語言結構、學習領域知識、常識
      • fine-tune微調:適應下游任務
        • 微調僅需要少量數據

03 未來發展

  • 性能超越人類
    • 一堆模型、一堆數據、一堆機器–刷榜
  • 問題
    • 計算資源有限

      • 同樣的算法,越大越快越好,但消耗巨大
      • 過多的計算導致環境污染(服務器消耗巨大資源)
      • 下面例子里用了10倍蠻力,得到0.2%的提升(不劃算)
    • 過于依賴數據

      • 標注代價巨大
      • 標注質量堪憂(人總有誤差、偷懶等
      • 標注數據隱含歧視(受到人主觀映像
      • 數據分布不同(訓練的模型只在你標注數據相同的數據上有效,換一個數據壓根不行)

      比如說我們做Q&A問答系統,我們在所有的問答里面都假設是第一名,但到了搜索引擎上有很多簡單的問題都解決不好。此外,還有數據隱私保護等等問題。

    • 去除上文以外的問題(三個主要的問題)

      • Rich Resource Tasks(資源豐富的任務)
        • 如中英機器翻譯
      • Low Resources Tasks(資源很少的任務
        • 如中文到希伯來語的翻譯
      • Multi-turn Tasks(多輪任務)
        • 客服(對話機器人)

3.1 資源豐富的任務—中英翻譯

  • 語料雖多,效果卻還是有問題
    • 翻譯錯詞
    • 丟詞
    • 不合語法
  • 疑問
    • 如何把詞典集成進來
    • 如何上下文判斷問題
    • 領域自適應
    • 主體自適應
  • 就算有大量數據,也并不一定能夠解決所有的問題


3.2 資源少的任務

  • 困難:
    • 語料少,需要借力
  • 借力
    • 遷移模型:最常見的:預訓練模型
    • 跨語言學習:從其他的語言學習過來
      • 英語的模型,用在德語、法語上
    • 利用種子迭代學習
      • 比如有一個小辭典,有幾條規則,有幾條雙語,以此為引子,冷啟動,啟動之后迭代
  • 嘗試很多,但沒有很好的方法
    • 如何建模
    • 如何從數據分析中做無監督、少監督的學習
    • 如何遷移:也是問題
    • 如何無監督也是問題
    • 先驗的規則詞典,如何冷啟動
    • 人能不能參與其中,幫助一個開始弱小的額系統逐漸強大(主動學習?

3.3 多輪問題–多輪對話


  • 困難
    • 小孩子都知道,電腦卻難以回答
      • 問題:沒有常識,推理不行
    • 前后不一致
      • 時間、空間、邏輯
      • 需要記憶力
  • 如何推理
    • 了解上下文
    • 利用知識
    • 推理
    • 可解釋性問題(推理需要可解釋
  • 推理所用技術:
    • 語義分析
    • 上下文的指代消解
    • 省略消解
  • 推理模型是什么樣的?
    • 有記憶、知識
    • 有讀寫:
      • 可讀取記憶,改變對話狀態(知識和狀態)
      • 寫記憶(更新
    • 得到答案后,也要更新記憶、存儲

4 未來之路

  • 目標遙遠:可解釋、有知識、有道德、可自我學習的NLP
  • 問題很多:
    • 我們怎么樣來實現這樣的目標呢?
    • 我們要從具體的任務出發,找出存在的問題。
      • Rich-Resource存在什么問題呢?
        • 上下文建模、數據糾偏、多任務學習、人類知識的理解。
      • Low-Resource又有什么問題要解決呢?
      • 多輪要解決什么問題呢?
        • 就是要解決知識常識、上下文建模、推理機制、可解釋等等。
  • 如何推進發展
    • 算力
    • 數據
    • 模型
    • 人才培養
    • 合作
    • 強調應用
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。