日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TF-IDF与余弦相似性的应用(三):自动摘要

發(fā)布時間:2025/7/25 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 TF-IDF与余弦相似性的应用(三):自动摘要 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

FROM:?http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html

作者: 阮一峰

日期: 2013年3月26日

有時候,很簡單的數(shù)學方法,就可以完成很復雜的任務。

這個系列的前兩部分就是很好的例子。僅僅依靠統(tǒng)計詞頻,就能找出關(guān)鍵詞和相似文章。雖然它們算不上效果最好的方法,但肯定是最簡便易行的方法。

今天,依然繼續(xù)這個主題。討論如何通過詞頻,對文章進行自動摘要(Automatic summarization)。

如果能從3000字的文章,提煉出150字的摘要,就可以為讀者節(jié)省大量閱讀時間。由人完成的摘要叫"人工摘要",由機器完成的就叫"自動摘要"。許多網(wǎng)站都需要它,比如論文網(wǎng)站、新聞網(wǎng)站、搜索引擎等等。2007年,美國學者的論文《A Survey on Automatic Text Summarization》(Dipanjan Das, Andre F.T. Martins, 2007)總結(jié)了目前的自動摘要算法。其中,很重要的一種就是詞頻統(tǒng)計。

這種方法最早出自1958年的IBM公司科學家H.P. Luhn的論文《The Automatic Creation of Literature Abstracts》。

Luhn博士認為,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。"自動摘要"就是要找出那些包含信息最多的句子。

句子的信息量用"關(guān)鍵詞"來衡量。如果包含的關(guān)鍵詞越多,就說明這個句子越重要。Luhn提出用"簇"(cluster)表示關(guān)鍵詞的聚集。所謂"簇"就是包含多個關(guān)鍵詞的句子片段。

上圖就是Luhn原始論文的插圖,被框起來的部分就是一個"簇"。只要關(guān)鍵詞之間的距離小于"門檻值",它們就被認為處于同一個簇之中。Luhn建議的門檻值是4或5。也就是說,如果兩個關(guān)鍵詞之間有5個以上的其他詞,就可以把這兩個關(guān)鍵詞分在兩個簇。

下一步,對于每個簇,都計算它的重要性分值。

以前圖為例,其中的簇一共有7個詞,其中4個是關(guān)鍵詞。因此,它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。

然后,找出包含分值最高的簇的句子(比如5句),把它們合在一起,就構(gòu)成了這篇文章的自動摘要。具體實現(xiàn)可以參見《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites》(O'Reilly, 2011)一書的第8章,python代碼見github。

Luhn的這種算法后來被簡化,不再區(qū)分"簇",只考慮句子包含的關(guān)鍵詞。下面就是一個例子(采用偽碼表示),只考慮關(guān)鍵詞首先出現(xiàn)的句子。

  Summarizer(originalText, maxSummarySize):

    // 計算原始文本的詞頻,生成一個數(shù)組,比如[(10,'the'), (3,'language'), (8,'code')...]
    wordFrequences = getWordCounts(originalText)

    // 過濾掉停用詞,數(shù)組變成[(3, 'language'), (8, 'code')...]
    contentWordFrequences = filtStopWords(wordFrequences)

    // 按照詞頻進行排序,數(shù)組變成['code', 'language'...]
    contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

    // 將文章分成句子
    sentences = getSentences(originalText)

    // 選擇關(guān)鍵詞首先出現(xiàn)的句子
    setSummarySentences = {}
    foreach word in contentWordsSortbyFreq:
      firstMatchingSentence = search(sentences, word)
      setSummarySentences.add(firstMatchingSentence)
      if setSummarySentences.size() = maxSummarySize:
        break

    // 將選中的句子按照出現(xiàn)順序,組成摘要
    summary = ""
    foreach sentence in sentences:
      if sentence in setSummarySentences:
        summary = summary + " " + sentence

    return summary

類似的算法已經(jīng)被寫成了工具,比如基于Java的Classifier4J庫的SimpleSummariser模塊、基于C語言的OTS庫、以及基于classifier4J的C#實現(xiàn)和python實現(xiàn)。

(完)


《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的TF-IDF与余弦相似性的应用(三):自动摘要的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 18岁禁黄网站 | 国产无精乱码一区二区三区 | 性视频久久 | 欧美日韩在线免费看 | 玖玖在线免费视频 | 亚洲精品乱码久久久久久久 | 婷婷成人综合网 | 亚洲天堂男人 | 麻豆视频在线观看免费 | 狠狠香蕉| 国产精品乱轮 | 性www| 国产欧美一区二区精品性色99 | 欧美在线看 | 在线看污视频 | 精品久久久无码中文字幕 | 国产精品国产三级国产专播精品人 | 又黄又爽的视频 | 亚洲无码一区二区三区 | 久久黄视频 | 久久蜜臀精品av | 日韩视频中文字幕在线观看 | 国产精品女人久久久 | 色婷婷国产精品久久包臀 | 好好热视频 | 先锋影音中文字幕 | 极品少妇xxxx精品少妇 | 91污网站| 日本一本久 | 国产做爰免费观看视频 | 伊人开心网 | 日韩乱码一区二区三区 | 久久五月激情 | 爱爱视频网址 | 日韩成人性视频 | 伊人艹| 久久精品视频一区二区三区 | 啪啪视屏 | 91久久影院 | 久久国产片 | 一本加勒比波多野结衣 | 综合色网站 | 致命魔术电影高清在线观看 | 欧美剧场 | 久久不卡免费视频 | 污的视频在线观看 | 三级视频国产 | 国内精久久久久久久久久人 | 欧美性aaa| 俺去射 | 成人免费视频国产免费网站 | 18岁免费观看电视连续剧 | 人与禽性7777777 | 天堂а√在线中文在线鲁大师 | 天天干干干干干 | 美女网站免费视频 | 黄色动漫软件 | 国产亚洲欧美一区二区三区 | 欧美视频久久 | 亚洲涩涩图 | 不用播放器的av网站 | 成人毛片av| 在线观看高清视频 | 国产一区二区三区影视 | 日日噜噜夜夜爽爽 | 亚洲资源站 | 国产精品久久久久久久久久久久久久久久久 | 日本视频免费看 | 日韩免费一区二区三区 | 日韩手机看片 | 国产a自拍 | 欧美日韩偷拍视频 | 欧美com | www.爱操 | 天堂成人 | 国产国产乱老熟女视频网站97 | 国产精品第八页 | 久久精品视 | 欧美日韩午夜激情 | 免费成人看片 | 成人精品一区日本无码网 | 女人天堂av | 亚洲精品成av人片天堂无码 | www.sesehu| 成av人片一区二区三区久久 | 波多野结衣视频在线播放 | 午夜精品一区二区三区免费视频 | 大桥未久中文字幕 | 久久97人妻无码一区二区三区 | 性一交一乱一区二区洋洋av | 人人精品久久 | 午夜网站免费 | 免费黄色高清视频 | 精品人妻一区二区三区浪潮在线 | 国产69精品久久久久777 | 极度诱惑香港电影完整 | 三级影片在线免费观看 | 欧美成人小视频 | 精国产人伦一区二区三区 |