日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

向量空间模型VSM—特征抽取算法—TF-IDF

發布時間:2024/4/15 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 向量空间模型VSM—特征抽取算法—TF-IDF 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文作者:lucky小東西

原文地址:基于tf-idf的小說主題特征抽取算?法

1.主題特征抽取做什么

在當前個性化推薦大行其道的時候,那就不得不提用戶畫像。用戶畫像的主要工作內容就是將用戶標簽化,對于我們現有的數據來說,用戶本身的固有屬性很難獲取到,或者說即使獲取到了,也是不夠準確的。那我們只能從“用戶到底看了啥”這個角度,嘗試去描述一個用戶了。那么,我們想要知道一個用戶“看了啥”,那么我們首先需要確定“他看的書到底是啥”。換言之,我們需要知道他讀的小說是什么小說,所以,我們先得清楚文章的主題,我們得清楚小說的標簽。小說的標簽準了,那么通過用戶對標簽的行為,那么,試想一下,用戶的標簽還不容易嗎?所以,與天貓、京東類似的電商不一樣(他們的物品已經高度分類以及標簽化,并且用戶數據詳細而準確),以內容為王的技術社區想要做好用戶畫像,那么,物品畫像的構建是重中之重。而對于物品畫像的構建,標簽系統又是重中之重。對于標簽系統的建立,那么,自然少不了文本主題特征的抽取。

2.TF-IDF

2.1 TF-IDF模型介紹

一個容易想到的思路,就是找到出現次數最多的詞。如果某個詞很重要,它應該在這篇文章中多次出現。于是,我們進行"詞頻"(Term Frequency,縮寫為TF)統計。以我們的小說為例,出現次數最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"(stop words),這類詞對我們無用,需要過濾掉停用詞。假設我們把它們都過濾掉了,只考慮剩下的有實際意義的詞。這樣又會遇到了另一個問題,我們可能發現"帥哥"、"美女"這類的詞出現的次數也是很高,可是這類詞在所有書中都有很高的出現率,所以對我們也并不是十分有用,如果某個詞比較少見,但是它在這篇文章中多次出現,那么它很可能就反映了這篇文章的特性,正是我們所需要的關鍵詞。

用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配一個"重要性"權重。最常見的詞("的"、"是"、"在")給予最小的權重,較常見的詞("帥哥")給予較小的權重,較少見的詞("魔幻"、"盛唐")給予較大的權重。這個權重叫做"逆文檔頻率"(Inverse Document Frequency,縮寫為IDF),它的大小與一個詞的常見程度成反比。知道了"詞頻"(TF)和"逆文檔頻率"(IDF)以后,將這兩個值相乘,就得到了一個詞的TF-IDF值。某個詞對文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的幾個詞,就是這篇文章的關鍵詞。

第一步,計算詞頻。

第二步,計算逆文檔頻率。

如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對得到的值取對數。

第三步,計算TF-IDF。

?

可以看到,TF-IDF與一個詞在文檔中的出現次數成正比,與該詞在整個語言中的出現次數成反比。所以,自動提取關鍵詞的算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞

2.2 TF-IDF模型應用實例

2.2.1 關鍵詞提取

算法核心代碼如下所示:

# -*- coding: UTF-8 -*- from jieba import analyse # 引入TF-IDF關鍵詞抽取接口 tfidf = analyse.extract_tags# 原始文本 text = "楊冪、趙又廷主演古裝玄幻大劇原著小說,三生三世,她和他,是否注定背負一段糾纏的姻緣?三生三世,她和他,是否終能互許一個生生世世的承諾?" \"那一世,大荒之中一處荒山,成就她與他的初見。桃花灼灼,枝葉蓁蓁,妖嬈傷眼。" \"記憶可以封存,可心有時也會背叛,忘得了前世情緣,忘不了桃林十里,亦忘不了十里桃林中玄衣的少年。" # 基于TF-IDF算法進行關鍵詞抽取 keywords = tfidf(text) print "keywords by tfidf:" # 輸出抽取出的關鍵詞 for keyword in keywords:print keyword + "/", 三生三世十里桃花輸入: "楊冪、趙又廷主演古裝玄幻大劇原著小說,三生三世,她和他,是否注定背負一段糾纏的姻緣?三生三世,她和他,是否終能互許一個生生世世的承諾?" "那一世,大荒之中一處荒山,成就她與他的初見。桃花灼灼,枝葉蓁蓁,妖嬈傷眼。" "記憶可以封存,可心有時也會背叛,忘得了前世情緣,忘不了桃林十里,亦忘不了十里桃林中玄衣的少年。"輸出: keywords by tf-idf: 三生/ 桃林/ 忘不了/ 三世/ 十里/ 蓁蓁/ 玄幻/ 傷眼/ 生生世世/ 互許/ 趙又廷/ 大劇/ 中玄衣/ 楊冪/ 終能/ 忘得/ 情緣/ 古裝/ 妖嬈/ 是否/ 鐵拳少年輸入: "一個元氣滿滿的格斗少年,費盡九牛二虎之力考入東江大學,只為挑戰高中時代的學長偶像,親手擊碎高中三年的格斗夢魘。當他第一腳踏進東大長空格斗社的那天起, 他才發現格斗王冠下的荊棘遠遠比奪得王冠要來的更有意義,枯燥的大學青春一樣可以變得熱血沸騰……"輸出: keywords by tf-idf: 格斗/ 王冠/ 學長/ 高中時代/ 社的/ 東大/ 大學/ 更有意義/ 九牛二虎之力/ 擊碎/ 費盡/ 夢魘/ 長空/ 枯燥/ 熱血沸騰/ 荊棘/ 東江/ 偶像/ 元氣/ 滿滿的/ 破產名媛約不約輸入: 她是落魄名媛季晚,亦是極具天賦的珠寶設計師;他是名門之后郁東堯,出身顯赫。傳聞他心狠手毒,親手設計車禍,害死弟弟,又娶了弟弟的心上人季晚為妻。 四年前,一個事故、一場婚禮,將他與她的命運牢牢捆綁,她走不出去,他不曾歸來。 四年后,當亡者與舊愛同時回歸,掀起重重波瀾,丑聞、抄襲門、連環車...輸出: keywords by tf-idf: 弟弟/ 心狠手毒/ 四年/ 郁東堯/ 亡者/ 心上人/ 名媛/ 抄襲/ 名門/ 落魄/ 車禍/ 害死/ 連環/ 丑聞/ 波瀾/ 天賦/ 捆綁/ 顯赫/ 設計師/ 大唐奇案集輸入: 盛世錦繡,繁華大唐,一場無頭連環女尸案掀起腥風血雨。 當女扮男裝的捕頭沈錦文,遇見身負重重謎團的寧修睿,她的世界便開始天翻地覆。 一樁樁奇案接踵而來,詭異驚悚的四方宮燈案,駭人聽聞的密室滅門案,神秘離奇的南疆將士懷胎案,西域古國龜茲國進貢的九龍雕像玉雕殺人案輸出: keywords by tf-idf: 奇案/ 腥風血雨/ 捕頭/ 滅門案/ 寧修/ 沈錦文/ 驚悚/ 女扮男裝/ 殺人案/ 身負/ 懷胎/ 接踵而來/ 謎團/ 天翻地覆/ 駭人聽聞/ 宮燈/ 古國/ 玉雕/ 連環/ 錦繡/ 至高無上輸入: 命運是一道痛苦枷鎖,蕓蕓眾生,無人能掙脫它的鎖鏈。三千年的孤獨等待,卻只換來與她一世輪回的天人永隔。 命運曰,不能改變世界,就會被世界改變,這就是命。因這句話,這一世他再次收齊遺留在上古之神石,扭曲規則,從此改變的是世界,不是他。輸出: keywords by tf-idf: 命運/ 一世/ 輪回/ 世界/ 收齊/ 天人永隔/ 神石/ 蕓蕓眾生/ 三千年/ 枷鎖/ 鎖鏈/ 遺留/ 上古/ 換來/掙脫/ 扭曲/ 孤獨/ 無人/ 這句/

結果說明:

1.由于用的jieba分詞自帶的語料庫,所以對于小說語料不是很完整,過濾掉停用詞,常見詞等效果還能夠提升,這個可以通過后期訓練進行補充。

2.輸入數據僅為簡介,所有可能有一些詞可能拆分出來的并不是理想,如果實操需要采用小說內容。

即使這樣,從結果中還是可以看出重點詞語大多數都被提取出來了,通過抽取的關鍵詞結合人工提供的關鍵詞,可以對小說進行更加準確的特征描述。

總結

以上是生活随笔為你收集整理的向量空间模型VSM—特征抽取算法—TF-IDF的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。