日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

向量空间模型(转)

發布時間:2025/3/21 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 向量空间模型(转) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一: 不同區域的權重計算

1.? 對出現在文檔的不通區域的term賦予不同的權值,例如title,author,body等,這樣需要在倒排表中記錄term每一次出現的位置

2. 對不同的區域賦予不通的權值,Gi, 使得 Sum(Gi) = 1

3. 對于這個Gi的值,可以通過機器學習的方法來確定:給定一個文檔集合和query,以及query與文檔之間的相似性,然后假定一個表達式,采用這個樣本來計算各種系數

二:出現頻率的權重計算

1. 在這種模型下,文檔被認為是詞的集合,詞的出現位置和順序都不重要,重要的是詞的出現次數,同樣地query也做這樣的處理,因此“我比你好”和“你比我好” 是一樣的

1. term在某一篇文檔中的頻率tf, 在一個文檔集合內的頻率cf,在文檔集合內包含該term的文檔數df

2. 如果只用tf,則語氣詞等的權重會最大,或者是專業文章內,例如自動化的文章中自動化會出現很多次,因此用自動化就不能區分開這些文章,因此要借助于cf或者df

3. 由于df比cf具有更好的作用來區分不同詞與文檔的相關性,因此采用df配合tf來決定term在文檔里的權重

4. 定義idf = log(N / df), N是文檔總數

5. term的權重 = tf * idf

6. 因此,定義query與文檔的權重關系為:score(q,d) = for t in q :? sum += tf(t,d) * idf(t)

7. 因此,將文檔表示為一個term以及term權重的向量,V = (t1, t2, ..., tn), 因此計算V1 與 V2的相似性可以如下的公式:

sim(V1, V2) = V1 * V2 / (|V1| * | V2|), 分子是向量的點乘,分母是向量長度的乘積,如果將V1, V2表示為有方向的直線,這實際是在計算這兩條線夾角的cos值

8. 將query也看成是term的向量集合,query中的term權重可以簡單地設定為相等

三. 對tf,df的一些變化

1. 一般不會說如果詞在文檔內出現20次,則記為20,因此必須采用公式來計算tf,一般是tf = 1 + log(出現次數)

2. 上面計算出來的tf會在很大的范圍內,差別很大,因此需要將其范圍變小,同時引入平滑因子來降低不同值之間的差距,縮小范圍是因為tf需要在不同的文檔間計算,否則一篇很長的文章內的詞會具有很大的tf值,這樣會降低其他文章的權重,會影響相關性。

?

本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/tianqio/archive/2009/05/24/4212434.aspx

轉載于:https://www.cnblogs.com/Myhsg/archive/2010/01/07/1641018.html

總結

以上是生活随笔為你收集整理的向量空间模型(转)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。