自然语言处理期末复习(1)n元模型
一、n元模型
1.語言建模:根據給定的語言樣本估計概率P(s)的過程
2.語言模型:根據語言樣本估計出的概率分布P稱為語言L的語言模型。
3.馬爾科夫假設:詞wi 的出現只與其前n-1個詞有關
4.n元組(n-gram):只需要考慮n個詞組成的片段。(n越大,模型需要的參數越多,歷史信息越多,模型越準確)
5.如何建立n元模型:確定訓練語料、對預料進行分詞、句子邊界標記,增加兩個特殊詞。建立n元模型的方法:(1)相對頻率法(2)最大似然估計
6.數據稀疏問題:由于訓練樣本不足而導致所估計的分布不可靠的問題。
7.Zipf 定律: 詞頻和序號之間的關系: 針對給定的語料庫,若某個詞w的詞頻是f,且該詞在詞頻表中的序號為r,則f x r = k 且 k (大致)是一個常數
8.MLE估計值不是理想的參數估計值的解決辦法:平滑
二、數據平滑:
① 把在訓練語料中出現過的n元組的概率適當減小
② 把減小所得到的概率質量分配給訓練語料中沒有出現過的n元組
1.Add-one平滑:規定n元組比真實出現次數多一次,
2.加法平滑:訓練語料中未出現的n元組的概率不再為0,而是一個大于0的較小的概率值,不是加1,而是加一個小于1的正數
3.留存估計:把訓練語料分作兩個部分
– 訓練語料(training set): 用于初始的頻率估計
– 留存語料(held out data): 用于改善最初的頻率估計
4.刪除估計
如果有很多訓練語料的話,可以使用留存估計
如果訓練語料不多的話,可以…
– 把訓練語料分成兩個部分 part 0 和 part 1
– part 0 作為訓練語料, part 1 作為留存語料建模
– part 1 作為訓練語料, part 0 作為留存語料建模
– 對兩個模型加權平均,求得最后的模型
5. Good Turing平滑
把出現n+1次的n元組所擁有的概率質量整體分配給出r次的n元組
①???把出現1次的n元組的概率質量分給出現0次的n元組
②????把出現2次的n元組的概率質量分給出現1次的n元組
組合使用Turing估計值和Good-Turing估計值
低頻段盡量使用Turing估計值,高頻段使用GoodTuring估計值
6.組合估計:高階n元組的概率估值參考低階n元組的概率估值。
組合模型:把不同階別的n元組模型組合起來。
7.插值平滑:不同階別的n元模型線形加權組合。
8.Jelinek-Mercer平滑:
簡單線形插值平滑,權值λ固定不變,不管高階模型估計值是否可靠,低階模型均以同樣的權重被加入模型,不合理。
– 若高階模型可靠,λ應該大
– 若高階模型不可靠,λ應該小
9.回退模型:在高階模型可靠時,盡可能使用高階模型。必要時,使用低階模型
10.Katz平滑:是一種回退平滑模型。
三、熵
1.熵:設X是取有限個值的隨機變量,若其概率分布為p(x),且x∈X,則X的熵定義為:?
通常a=2.
熵描述了隨機變量的不確定性,熵描述了隨機變量的平均信息量。
2.相對熵:設p(x)是隨機變量X的真實分布密度,q(x)是通過統計手段得
到的X近似分布,則二者間相對熵定義為:
相對熵描述同一個隨機變量的不同分布的差異,相對熵描述了因為錯用分布密度而增加的信息量
3.交叉熵:設隨機變量X的分布密度為p(x),q(x)是通過統計手段得
到的X的近似分布,則隨機變量X的交叉熵定義為:
??
交叉熵用于比較兩個近似的分布,交叉熵小的,是更好的近似分布。
4.三者關系:
?
總結
以上是生活随笔為你收集整理的自然语言处理期末复习(1)n元模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百练OJ:2388:寻找中位数
- 下一篇: 自然语言处理期末复习(2)中文分词