日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理期末复习(1)n元模型

發布時間:2025/3/19 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理期末复习(1)n元模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、n元模型

1.語言建模:根據給定的語言樣本估計概率P(s)的過程

2.語言模型:根據語言樣本估計出的概率分布P稱為語言L的語言模型。

3.馬爾科夫假設:詞wi 的出現只與其前n-1個詞有關

4.n元組(n-gram):只需要考慮n個詞組成的片段。(n越大,模型需要的參數越多,歷史信息越多,模型越準確)

5.如何建立n元模型:確定訓練語料、對預料進行分詞、句子邊界標記,增加兩個特殊詞。建立n元模型的方法:(1)相對頻率法(2)最大似然估計

6.數據稀疏問題:由于訓練樣本不足而導致所估計的分布不可靠的問題。

7.Zipf 定律: 詞頻和序號之間的關系: 針對給定的語料庫,若某個詞w的詞頻是f,且該詞在詞頻表中的序號為r,則f x r = k 且 k (大致)是一個常數

8.MLE估計值不是理想的參數估計值的解決辦法:平滑

二、數據平滑:

① 把在訓練語料中出現過的n元組的概率適當減小

② 把減小所得到的概率質量分配給訓練語料中沒有出現過的n元組

1.Add-one平滑:規定n元組比真實出現次數多一次,

2.加法平滑:訓練語料中未出現的n元組的概率不再為0,而是一個大于0的較小的概率值,不是加1,而是加一個小于1的正數

3.留存估計:把訓練語料分作兩個部分

– 訓練語料(training set): 用于初始的頻率估計

– 留存語料(held out data): 用于改善最初的頻率估計

4.刪除估計

如果有很多訓練語料的話,可以使用留存估計

如果訓練語料不多的話,可以…

– 把訓練語料分成兩個部分 part 0 和 part 1

– part 0 作為訓練語料, part 1 作為留存語料建模

– part 1 作為訓練語料, part 0 作為留存語料建模

– 對兩個模型加權平均,求得最后的模型

5. Good Turing平滑

把出現n+1次的n元組所擁有的概率質量整體分配給出r次的n元組

①???把出現1次的n元組的概率質量分給出現0次的n元組

②????把出現2次的n元組的概率質量分給出現1次的n元組

組合使用Turing估計值和Good-Turing估計值

低頻段盡量使用Turing估計值,高頻段使用GoodTuring估計值

6.組合估計:高階n元組的概率估值參考低階n元組的概率估值。

組合模型:把不同階別的n元組模型組合起來。

7.插值平滑:不同階別的n元模型線形加權組合。

8.Jelinek-Mercer平滑:

簡單線形插值平滑,權值λ固定不變,不管高階模型估計值是否可靠,低階模型均以同樣的權重被加入模型,不合理。

– 若高階模型可靠,λ應該大

– 若高階模型不可靠,λ應該小

9.回退模型:在高階模型可靠時,盡可能使用高階模型。必要時,使用低階模型

10.Katz平滑:是一種回退平滑模型。

三、熵

1.熵:設X是取有限個值的隨機變量,若其概率分布為p(x),且x∈X,則X的熵定義為:?

通常a=2.

熵描述了隨機變量的不確定性,熵描述了隨機變量的平均信息量。

2.相對熵:設p(x)是隨機變量X的真實分布密度,q(x)是通過統計手段得

到的X近似分布,則二者間相對熵定義為:

相對熵描述同一個隨機變量的不同分布的差異,相對熵描述了因為錯用分布密度而增加的信息量

3.交叉熵:設隨機變量X的分布密度為p(x),q(x)是通過統計手段得

到的X的近似分布,則隨機變量X的交叉熵定義為:

??

交叉熵用于比較兩個近似的分布,交叉熵小的,是更好的近似分布。

4.三者關系

?


總結

以上是生活随笔為你收集整理的自然语言处理期末复习(1)n元模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。