nlp5-n-gram/语言模型(数据平滑方法
生活随笔
收集整理的這篇文章主要介紹了
nlp5-n-gram/语言模型(数据平滑方法
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文章目錄
- 1.句子的先驗(yàn)概率
- 1.1 n-gram
- 2. 參數(shù)估計(jì)
- 3. 數(shù)據(jù)平滑
- 3.1 數(shù)據(jù)平滑度方法
- 3.1.1加1法
- 3.1.2減
1.句子的先驗(yàn)概率
- 這個(gè)聯(lián)合概率太小了
- 窗口越大,共現(xiàn)的可能性越小
- 參數(shù)多
- 解決:等價(jià)類
- 不看所有的歷史信息
- 只看部分歷史信息,但看所有的歷史等價(jià)
- 如何劃分等價(jià)類
將兩個(gè)歷史映射到同一個(gè)等價(jià)類,當(dāng)且僅當(dāng)這兩個(gè)歷史中的最近 n-1 個(gè)基元相同,即:
1.1 n-gram
- 這種情況下的語(yǔ)言模型稱為 n 元文法(n-gram)模型
- ?當(dāng) n=1 時(shí),即出現(xiàn)在第 i 位上的基元 wi 獨(dú)立于歷史。一元文法也被寫為 uni-gram 或 monogram;
- ?當(dāng) n=2 時(shí), 2-gram (bi-gram) 被稱為1階馬爾可夫鏈;—效果比1好一點(diǎn)
- ?當(dāng) n=3 時(shí), 3-gram(tri-gram)被稱為2階馬爾可夫鏈,
- 依次類推。
- 為了保證條件概率在 i=1 時(shí)有意義,同時(shí)為了保證句子內(nèi)所有字符串的概率和為 1,即 ,可以在句子首尾兩端增加兩個(gè)標(biāo)志: w1 w2 … wm 。不失一般性,對(duì)于n>2 的 n-gram,p(s) 可以分解為:
- eg
- 拼音轉(zhuǎn)文字
- 樣本空間
- 1?N,2?N21-N,2-N^21?N,2?N2
- 對(duì)漢語(yǔ)來(lái)說(shuō)4-gram可能好一點(diǎn)
- 漢語(yǔ)分詞問(wèn)題
- 給定漢字串:他是研究生物的。
- 可能的漢字串:
- 他|是|研究生|物|的
- 他|是|研究|生物|的
- p(Seg1) =p(他|)×p(是|他)×p(研究生|是)× p(物|研究生)×p(的|物)×p(的|)
- p(Seg2) = p(他|)×p(是|他)×p(研究|是)× p(生物|研究)×p(的|生物)× p(的|)
2. 參數(shù)估計(jì)
- 訓(xùn)練語(yǔ)料(training data):用于建立模型,確定模型參數(shù)的已知語(yǔ)料。
- 最大似然估計(jì)(maximum likelihood Evaluation, MLE):用相對(duì)頻率計(jì)算概率的方法。
- 存在問(wèn)題:沒(méi)有出現(xiàn)過(guò)的詞怎么辦?概率為0數(shù)據(jù)匱乏(稀疏) (Sparse Data) 引起零概率問(wèn)題
- 解決:數(shù)據(jù)平滑
- 解決:數(shù)據(jù)平滑
3. 數(shù)據(jù)平滑
- 數(shù)據(jù)平滑的基本思想:
調(diào)整最大似然估計(jì)的概率值,使零概率增值,使非零概率下調(diào),“劫富濟(jì)貧”,消除零概率,改進(jìn)模型的整體正確率。 - 基本目標(biāo):
測(cè)試樣本的語(yǔ)言模型困惑度越小越好。 - 困惑度定義
3.1 數(shù)據(jù)平滑度方法
3.1.1加1法
- 加1法
- 基本思想: 每一種情況出現(xiàn)的次數(shù)加1。
- 例如,對(duì)于 uni-gram,設(shè) w1, w2, w3 三個(gè)詞,概率分別為:1/3, 0, 2/3,加1后情況?
- 2/6, 1/6, 3/6
3.1.2減
總結(jié)
以上是生活随笔為你收集整理的nlp5-n-gram/语言模型(数据平滑方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: {ACL2020}In Layman’s
- 下一篇: 2知识图谱的生命周期