日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本摘要方法总结

發布時間:2025/3/8 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本摘要方法总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

說到文章摘要大家并不陌生,就是給長文本在不丟失任何重要信息的情況下做個精確的總結。具體有哪些方法呢?可以看以下總結。

文章摘要

  • 基于抽取的文章摘要(Extraction-based)
    1 詞頻 (Leverage word frequencies)
    2 Textrank (Leverage embeddings similarity with TextRank)
    3 embedding聚類 (Leverage embeddings and clustering)
  • 基于概要的文章摘要(Abstraction-based)
    1 seq2seq模型 (Seq-to-seq models and supervised learning)

基于抽取的文章摘要

從長文本中提取代表最重要要點的單詞或句子的子集,并結合起來形成摘要,結果在語法上可能不準確。

基于概要的文章摘要

使用深度學習技術(主要在seq-to-seq模型中)像人類一樣解釋和縮短原始文檔。由于抽象機器學習算法可以生成代表源文本中最重要信息的新短語和句子,因此它們可以幫助克服基于抽取技術的語法錯誤。

雖然抽象在文本摘要方面表現得更好,但開發其算法需要復雜的深度學習技術和復雜的語言建模。因此,抽取式文本摘要方法仍然廣泛流行。

Leverage word frequencies

  • 清除文檔中的停用詞、數字、標點符號和其他特殊字符。
  • 把文檔拆分成句子。
  • 計算每個單詞在文檔中出現的次數,并將其除以文檔中出現頻率最高的單詞的出現次數,以獲得單詞頻率。
  • 將出現在同一句子中的所有單詞的詞頻相加,并獲得每個句子的分數。
  • 句子的分數高于某個閾值,并將其用作文章摘要。
  • Extraction-based summarization with TextRank

  • 把文檔分成幾個句子。
  • 算出每個句子的句向量。
  • 構建一個圖,其中節點是句子,邊權重是句子嵌入的相似性(如余弦相似性)。
  • 在圖上運行PageRank算法,以獲得每個句子的PageRank分數。PageRank分數高表示節點對網絡很重要。
  • 保留分數高于某個閾值的句子,將其用作文檔摘要。
  • Extraction-based summarization with sentence embeddings and clustering

  • 解析文檔中的共同引用。
  • 把文檔拆分成句子。
  • 獲得每個句子的句向量(例如使用BERT)。
  • 對句子嵌入使用K-Means,得到K個簇。K是總結中的句子數。
  • 找到最接近每個聚類中心的句子,并使用它們來撰寫摘要。
  • Abstraction-based summarization with seq-to-seq models

  • 獲取一個包含文檔和摘要的數據集。
  • 為文本摘要選擇合適的metric,例如ROUGE。
  • 訓練一個seq-to-seq模型(如transformer),以監督方式從文本中生成摘要。
  • 參考文獻

    • TextRank:cran.r-project.org/web/
    • pagerank:en.wikipedia.org/wiki/P
    • 基于bert的摘要抽取:github.com/dmmiller612/
    • kmeans:en.wikipedia.org/wiki/K
    • rouge:en.wikipedia.org/wiki/R

    總結

    以上是生活随笔為你收集整理的文本摘要方法总结的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。