日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关键词提取算法

發(fā)布時間:2025/3/21 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 关键词提取算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

來源:《Python自然語言處理實戰(zhàn):核心技術(shù)與算法》

1.TF-IDF

TF-IDF從詞頻、逆文檔頻次兩個角度對詞的重要性進行衡量,可以根據(jù)tf-idf值由大到小排序取前n個作為關(guān)鍵詞。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

傳統(tǒng)的TF-IDF算法中,僅考慮了詞的兩個統(tǒng)計信息(出現(xiàn)頻次、在多少個文檔出現(xiàn)),因此,其對文本的信息利用程度顯然也是很少的。

除了上面的信息外,在一個文本中還有許多信息能對關(guān)鍵詞的提取起到很好的指導作用,例如每個詞的詞性出現(xiàn)的位置等。在某些特定的場景中,如在傳統(tǒng)的TF-IDF基礎(chǔ)上,加上這些輔助信息,能對關(guān)鍵詞提取的效果起到很好的提高作用:

  • 在文本中,名詞作為一種定義現(xiàn)實實體的詞,帶有更多的關(guān)鍵信息,如在關(guān)鍵詞提取過程中,對名詞賦予更高的權(quán)重,能使提取出來的關(guān)鍵詞更合理。

  • 此外,在某些場景中,文本的起始段落和末尾段落比起其他部分的文本更重要,如對出現(xiàn)在這些位置的詞賦予更高的權(quán)重,也能提高關(guān)鍵詞的提取效果。

  • 算法本身的定義是死的,但是結(jié)合我們的應(yīng)用場景,對算法進行合適的重塑及改造,使之更適應(yīng)對應(yīng)場景的應(yīng)用環(huán)境,無疑能對我們想要得到的結(jié)果起到更好的指導作用。

    2.TextRank

    TextRank算法,基本思想來源于Google的PageRank算法,最早用于文檔的自動摘要,基于句子維度的分析,利用TextRank對每個句子進行打分,挑選出分數(shù)最高的n個句子作為文檔的關(guān)鍵句,以達到自動摘要的效果。

    TextRank算法,可以脫離語料庫的背景,僅對單篇文檔進行分析就可以提取該文檔的關(guān)鍵詞,即TextRank可以不用訓練,直接根據(jù)單個文檔就可以對關(guān)鍵詞進行提取。這也是TextRank算法的一個重要特點。其他算法的關(guān)鍵詞提取都要基于一個現(xiàn)成的語料庫,如:

    • 在TF-IDF中,需要統(tǒng)計每個詞在語料庫中的多少個文檔有出現(xiàn)過,也就是逆文檔頻率;

    • 主題模型的關(guān)鍵詞提取算法,則是要通過對大規(guī)模文檔的學習,來發(fā)現(xiàn)文檔的隱含主題。

    3. 主題模型?

    一般來說,TF-IDF算法和TextRank算法就能滿足大部分關(guān)鍵詞提取的任務(wù)。但是在某些場景,基于文檔本身的關(guān)鍵詞提取還不是非常足夠,有些關(guān)鍵詞并不一定會顯式地出現(xiàn)在文檔當中,如一篇講動物生存環(huán)境的科普文,通篇介紹了獅子老虎鱷魚等各種動物的情況,但是文中并沒有顯式地出現(xiàn)動物二字,這種情況下,前面的兩種算法顯然不能提取出動物這個隱含的主題信息,這時候就需要用到主題模型。

    前面兩種模型缺點:是直接根據(jù)詞與文檔的關(guān)系,對關(guān)鍵詞進行抽取。這兩種方法僅用到了文本中的統(tǒng)計信息,對文本中豐富的信息無法充分地進行利用,尤其是其中的語義信息,對文本關(guān)鍵詞的抽取顯然是一種非常有用的信息。

    主題模型:與前面兩種模型不同的是,主題模型認為在詞與文檔之間沒有直接的聯(lián)系,它們應(yīng)當還有一個維度將它們串聯(lián)起來,主題模型將這個維度稱為主題。每個文檔都應(yīng)該對應(yīng)著一個或多個的主題,而每個主題都會有對應(yīng)的詞分布,通過主題,就可以得到每個文檔的詞分布。

    3.1 LSA/pLSA

    相較于傳統(tǒng)SVM模型(Space Vector Model,空間向量模型)對語義信息利用的缺乏,LSA通過SVD(奇異值分解)將詞、文檔映射到一個低維的語義空間,挖掘出詞、文檔的淺層語義信息,從而對詞、文檔進行更本質(zhì)地表達。這也反映了LSA的優(yōu)點,可以映射到低維的空間,并在有限利用文本語義信息的同時,大大降低計算的代價,提高分析質(zhì)量。

    LSA是通過SVD這一暴力的方法,簡單直接地求解出近似的word-topic-document分布信息。但是其作為一個初級的主題模型,仍然存在著許多的不足。其中主要的缺點是:

    1. SVD的計算復雜度非常高,特征空間維度較大的,計算效率十分低下。

    2. 另外,LSA得到的分布信息是基于已有數(shù)據(jù)集的,當一個新的文檔進入到已有的特征空間時,需要對整個空間重新訓練,以得到加入新文檔后對應(yīng)的分布信息。

    3. 除此之外,LSA還存在著對詞的頻率分布不敏感、物理解釋性薄弱等問題。

    為了解決這些問題,學者們在LSA的基礎(chǔ)上進行了改進,提出了pLSA算法,通過使用EM算法對分布信息進行擬合替代了使用SVD進行暴力破解,從一定程度上解決了LSA的部分缺陷,但是LSA仍有較多不足。通過不斷探索,學者們又在pLSA的基礎(chǔ)上,引入了貝葉斯模型,實現(xiàn)了現(xiàn)在topic model的主流方法——LDA(LatentDirichlet Allocation,隱含狄利克雷分布)。

    3.2 LDA

    ?

    ?

    ?

    ?

    ?

    總結(jié)

    以上是生活随笔為你收集整理的关键词提取算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。