日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP——day37 读论文:自然语言处理中的文本表示研究(综述类 2022 软件学报)

發布時間:2024/3/26 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP——day37 读论文:自然语言处理中的文本表示研究(综述类 2022 软件学报) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

自然語言處理中的文本表示研究

  • 資源下載地址(原論文和筆記)
  • INTRODUCTION
  • chap1文本表示基礎
    • 1.1 什么是文本表示?
    • 1.2 為什么進行文本表示
  • chap2 主流技術和方法
    • 文本的離散表示
    • 2.1 向量空間模型VSM(離散型)
    • 2.2 基于主題模型的方法
    • 2.3 基于圖的方法
      • 2.3.1 基于經典圖論的圖文本表示
      • 2.3.2 基于信息檢索的圖文本表示
      • 2.3.3 基于復雜網絡的圖文本表示
      • 2.3.4 基于知識圖譜的圖文本表示
    • 2.4 基于神經網絡的方法
    • 2.5 基于深度神經網絡的文本表示代表性的工作包括:
    • 2.6 基于表示學習的方法
      • 2.6.2 注意力機制和表示學習
  • chap3 其他文本表示方法分析
    • 3.1 基于事件的方法
    • 3.2 基于語義的方法
    • 3.3 基于知識的方法
  • 5 總結

資源下載地址(原論文和筆記)

點擊跳轉

INTRODUCTION

  • 自然語言處理的最終目標是讓機器能準確地理解人類語言, 并自然地與人類進行交互.
  • 在當前和今后很長一段時間內, 自然語言處理領域的研究重點是探索計算機如何表示、存儲和處理人類語言, 設計相應的系統實現自然語言處理任務, 并評估這些系統的質量.
  • 這種系統是采用人工智能算法或模型, 編制計算機程序模擬人的自然語言處理機制實現的. 這里有一個核心問題是如何將人類真實的自然語言轉化為計算機可以處理的形式, 一般也稱為自然語言的形式化或數字化, 在自然語言處理領域通常稱為文本表示.
  • 文本表示也稱語言表示, 是對人類語言的一種主觀性約定或描述, 是認知科學和人工智能領域中的共性和基礎性問題. 認知科學認為語言表示是語言在人腦中的表現形式, 影響或決定著人類對語言的理解和產生. 而人工智能認為語言表示是指語言的形式化或數學化描述, 在計算機中表示語言并通過計算機程序自動處理, 比如詞向量就是以數值向量的形式來表示一個詞.。
  • 由此可以看出, 文本表示完成自然語言數據的數字化, 是自然語言后續處理的基礎性工作.
  • . 在計算學科, 一般認為數據決定了機器學習的上限, 而算法只是盡可能逼近這個上限

chap1文本表示基礎

1.1 什么是文本表示?

  • 語言模型(language model,LM):語言模型可以根據上下文預測下一個語言單位是什么,可以從大規模的文本中學習到語義.

① 初期——基于規則的NLP:持續性和移植性較差
② 20世紀80年代末至2010s 年,從統計角度建模的統計語言模型(statistical languagemodel,SLM)成為主流方法
③ 2003年, Bengio 等人.提出了神經網絡語言模型(neural network language model,NNLM),使用低維、稠密的實值向量表示語言中的組成要素
④近年來,基于深度學習和神經網絡的語言模型成為文本表示的主流方法,預訓練+微調YYDS!

1.2 為什么進行文本表示

表示學習作為目前研究和應 用的熱點領域, 可以自動、有效地獲取文本的特征

chap2 主流技術和方法

文本的離散表示

基于布爾表示的形式(boolean representation) or one-hot,前者;
基于計數表示的形式 (count-based representation),后者;
句子包 (bag of sentence, BOS)
詞袋 BOW

2.1 向量空間模型VSM(離散型)

VSM改進的研究主要集中在兩個方面

2.2 基于主題模型的方法

LDA

2.3 基于圖的方法

2.3.1 基于經典圖論的圖文本表示

GSM (graph space model) 模型
GSM構建 主要包括 3 個步驟: 第 1 步是獲取文本特征, 構建節點集合 V; 第 2 步是定義特征項之間的關系, 確定節點之間的 邊集合 E; 第 3 步是對節點和邊根據需要進行量化, 包括節點屬性量化和邊的權重量化.

2.3.2 基于信息檢索的圖文本表示

TextRank 算法:
TextRank 算法實現文本表示建模的思想是根據文本要素之間的共現關系構造無向加權圖, 主要有兩種應用:
一種是用于關鍵詞提取的文本表示建模和算法
另一種是用于抽取式的無監督文本摘要方法, 類似地構建圖, 但其中節點集合 V是文本中的句子 集合, 將文本分割成句子的表示

2.3.3 基于復雜網絡的圖文本表示

文本復雜網絡就是利用復雜網絡來描述和建模文本, 研究語言要素及其結構. 通常將文本中的字、詞或句子 等語言要素表示為節點, 字、詞或句子間的關系表示為邊, 將文本抽象成圖.

2.3.4 基于知識圖譜的圖文本表示

知識圖譜的構建需要自然語言處理技術中的信息抽取, 包括實體抽取和關系抽取, 實體構成 G中的節點集合 V, 關系構成邊的集合 E. 對于文檔或文檔集合, 提取其中的關鍵信息, 結構化并最終組織成圖譜形式, 形成對文章 語義信息的圖譜化表示

2.4 基于神經網絡的方法

基本的 NNLM實現機制:
模型由輸入層、隱藏層和輸出層組成, 輸入第 t–1 到第 t–n+1 個單詞的 one-hot 向量表示 wt–1, wt–2,…, wt–n+1, 模型預測并輸出第 t 個單詞的嵌入表示 wt, 隱藏層通過參數矩陣 C∈R|V|×m 將輸入的每個詞映射為一個向量 C(i), C(i)∈Rm 表示詞典中第 i 個詞對應的向量, |V|表示單詞表中的單詞個數, m表示向量的維度

代表性方法有 3 種:
(1) 基于卷積神經網絡 CNN.:卷積神經網絡對句子建模, 以句子為單位再卷積和池化, 得到篇章表示;
(2) 基于循環神經網絡 RNN. 采用循環 神經網絡對句子建模, 然后再用循環神經網絡建模以句子為單位的序列, 得到篇章表示;
(3) 混合模型. 先用循環神 經網絡對句子建模, 然后以句子為單位再卷積和池化, 得到篇章表示

2.5 基于深度神經網絡的文本表示代表性的工作包括:

(1) ELMo (embeddings from language models):ELMo[83] 實現了一詞多義、動態更新的詞嵌入建模. 先在一個大的語料庫上訓練語言模型, 得到詞向量和神 經網絡結構, 接著進行領域轉換 (domain transfer), 用訓練數據來調優預訓練好的 ELMo 模型, 這種訓練數據的上 下文信息就是詞的語境.;
(2) Transformer/self-attention:Transformer[84] 是 Google 提出的一種文本表示全新架構模型, 用來解決 LSTM文本建模長距離依賴缺陷的問 題.;
(3) Open AI GPT (generative pre-training);
(4) BERT (bidirectional encoder representation from transformers):BERT[88] 是一種非常成功的文本表示學習模型, 即通過一個深層模型來學習文本特征, 這個模型可以從無標記 數據集中預訓練得到.
(5) XLNet (extra long net):GPT 和BERT 的出現, 使自然語言處理任務的主流做法變為預訓練 & 微調 (pre-train+finetune) 的形式, 先在大 規模語料庫上進行有監督或無監督預訓練, 然后針對特定任務對模型微調.

XLNet[89] 預訓練過程

預訓練語言表示分為基于特征的方法 (ELMo 為代表) 和基于微調 (Open AI GPT 為代表) 的方法. BERT 最重 要的意義不在于模型選擇和訓練方法, 而是提出了一種全新的思路, 效果好且具備廣泛的通用性, 絕大部分自然語 言處理任務都可以采用類似的兩階段模式直接去提升效果.

2.6 基于表示學習的方法

表示學習和深度學習關系示意圖

圖模型和神經網絡模型的比較

生成對抗網絡 (generative adversarial networks, GAN):GAN 包含兩部分: 生成器用來生成盡可能真實的自然語言文本, 去“欺騙”或“誤導”判別器; 判別器盡最 大努力甄別真實語言文本與生成的文本. 訓練 GAN 就是使生成器和判別器相互博弈, 達到真實文本和生成器生成的文本難以區分的效果. 比較代表性的改進模型有 SegGAN、GraphGAN、ANE 等

2.6.2 注意力機制和表示學習

大多數注意力機制都是在 深度學習的常見編碼-解碼 (encoder-decoder) 框架上發 揮作用的,

基于注意力機制的編碼-解碼框架:注意力機制最核心的工作就是在序列的不同時刻產生不同的語言編碼向量, 量化要重點關注輸入序列中的哪 些部分, 然后根據關注區域產生后續的輸出.

chap3 其他文本表示方法分析

3.1 基于事件的方法

3.2 基于語義的方法

3.3 基于知識的方法

5 總結

目前和今后較長一段時間, 以 Word2Vec[36] 、GloVe[77] Transformer[84] 、GPT[86,87] 、BERT[88] 、XLNet[89] 、fastText[79] 為代表的嵌入式表示方法, 以 為代表的自然語言深度學習框架, 以預訓練加微調為代表的自然語 言處理基本流程將成為進一步研究和發展的主導方向。

總結

以上是生活随笔為你收集整理的NLP——day37 读论文:自然语言处理中的文本表示研究(综述类 2022 软件学报)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。