语言统计学中的几个定律,可作为设计检索的参考
生活随笔
收集整理的這篇文章主要介紹了
语言统计学中的几个定律,可作为设计检索的参考
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
30定律:出現頻率最高的30個詞占全文本總詞數的30% 如果剔除150個最高頻率的詞(由于df過大被認為是停用詞):倒排表記錄總個數會減少25-30% Zipf定律: 在自然語料庫中所有term的freq(頻度)排名和其freq(頻度)的乘積大致是一個常數 freq_NO1 *?1 =?freq_NO2 *?2?=?freq_NO3 *?3?=?freq_NOn * N 那也就是說排名第二多的詞的頻度是第一多的一半,排名第三的詞頻度是第一的1/3,這樣以此類推 heaps定律,在自然語料庫中不重復term的個數和語料庫數據量成指數關系 因為是指數關系,可以知道下面幾個特征 1 文檔數無限增大,不重復term的個數也不會趨于一個常數 2?隨著文檔數的增加,不重復term的增長率會有所下降,增長率漸漸趨于平穩 Benford law:在自然形成的十進制數據中,任何一個數據的第一個數字d出現的概率大致log10(1+1/d)
轉載于:https://www.cnblogs.com/hdflzh/p/4034622.html
總結
以上是生活随笔為你收集整理的语言统计学中的几个定律,可作为设计检索的参考的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 年龄和收入对数的线性回归_(CFA教材详
- 下一篇: 第八讲:tapestry组件