日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Jelinek-Merer与Absolute discounting 平滑方法

發(fā)布時(shí)間:2023/12/10 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Jelinek-Merer与Absolute discounting 平滑方法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Jelinek-Merer

Jelinek-Merer平滑方法的基本思想是利用低元n-gram模型對(duì)高元n-gram模型進(jìn)行線性插值。

PML(wi∣wi?1)=c(wi,wi?1)c(wi?1)P_{ML}(w_i|w_{i-1})=\dfrac{c(w_i,w_{i-1})}{c(w_{i-1})}PML?(wi?wi?1?)=c(wi?1?)c(wi?,wi?1?)?

c(wi,wi?1)c(w_i,w_{i-1})c(wi?,wi?1?)是指詞i和詞i-1共同出現(xiàn)的次數(shù)。

PML(wi)=c(wi)NP_{ML}(w_i)=\dfrac{c(w_i)}{N}PML?(wi?)=Nc(wi?)?
N: term總數(shù)

Absolute discounting 絕對(duì)值減法

也是一種插值方式。通過從每個(gè)非零計(jì)數(shù)中減去一個(gè)固定的值D來建立高階分布。

D應(yīng)該是在0到1之間。D的估計(jì)值可以是:D=n1n1+2n2D=\dfrac{n_1}{n_1+2n_2}D=n1?+2n2?n1??
n1n_1n1?是訓(xùn)練語料庫(kù)中出現(xiàn)了1次的term總數(shù),在n元語法模型中。
n2n_2n2?是訓(xùn)練語料庫(kù)中出現(xiàn)了2次的term總數(shù),在n元語法模型中。


這部分的含義是:在n元語法模型中,和wi?1w_{i-1}wi?1?出現(xiàn)的不同元素個(gè)數(shù)。
∑wic(wi?n+1i)\sum_{w_i}c(w_{i-n+1}^i)wi??c(wi?n+1i?)的含義是與wiw_iwi?一起出現(xiàn)次數(shù)為0的不同元素的個(gè)數(shù)。

心存疑問,這里不太確定。
對(duì)于一元模型,Panyunsheng8講解的還是很清楚的。對(duì)于二元模型存在疑問。

參考資料:
MacCartney, B. (2005). Nlp lunch tutorial: Smoothing.
https://www.jianshu.com/p/a28acdc32b56
https://github.com/PangYunsheng8/Smoothing-Techniques-in-NLP/blob/master/smoothing.ipynb

總結(jié)

以上是生活随笔為你收集整理的Jelinek-Merer与Absolute discounting 平滑方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。