當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

nlp5-n-gram/语言模型(数据平滑方法

發(fā)布時(shí)間：2024/7/5 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 nlp5-n-gram/语言模型(数据平滑方法小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這個(gè)聯(lián)合概率太小了
- 窗口越大，共現(xiàn)的可能性越小
- 參數(shù)多
解決：等價(jià)類
- 不看所有的歷史信息
- 只看部分歷史信息，但看所有的歷史等價(jià)
如何劃分等價(jià)類
將兩個(gè)歷史映射到同一個(gè)等價(jià)類，當(dāng)且僅當(dāng)這兩個(gè)歷史中的最近 n-1 個(gè)基元相同，即：

這種情況下的語(yǔ)言模型稱為 n 元文法(n-gram)模型
- ?當(dāng) n=1 時(shí)，即出現(xiàn)在第 i 位上的基元 wi 獨(dú)立于歷史。一元文法也被寫為 uni-gram 或 monogram；
- ?當(dāng) n=2 時(shí), 2-gram (bi-gram) 被稱為1階馬爾可夫鏈；—效果比1好一點(diǎn)
- ?當(dāng) n=3 時(shí), 3-gram(tri-gram)被稱為2階馬爾可夫鏈，
- 依次類推。
為了保證條件概率在 i=1 時(shí)有意義，同時(shí)為了保證句子內(nèi)所有字符串的概率和為 1，即，可以在句子首尾兩端增加兩個(gè)標(biāo)志: w1 w2 … wm 。不失一般性，對(duì)于n>2 的 n-gram，p(s) 可以分解為：
eg
拼音轉(zhuǎn)文字
樣本空間
- $1-N,2-N^2$
- 對(duì)漢語(yǔ)來(lái)說(shuō)4-gram可能好一點(diǎn)
漢語(yǔ)分詞問(wèn)題
- 給定漢字串：他是研究生物的。
- 可能的漢字串：
  - 他|是|研究生|物|的
  - 他|是|研究|生物|的
- 2元文法：
  - p(Seg1) =p(他|)×p(是|他)×p(研究生|是)× p(物|研究生)×p(的|物)×p(的|)
  - p(Seg2) = p(他|)×p(是|他)×p(研究|是)× p(生物|研究)×p(的|生物)× p(的|)

訓(xùn)練語(yǔ)料(training data)：用于建立模型，確定模型參數(shù)的已知語(yǔ)料。
最大似然估計(jì)(maximum likelihood Evaluation, MLE)：用相對(duì)頻率計(jì)算概率的方法。
存在問(wèn)題：沒(méi)有出現(xiàn)過(guò)的詞怎么辦？概率為0數(shù)據(jù)匱乏(稀疏) (Sparse Data) 引起零概率問(wèn)題
- 解決：數(shù)據(jù)平滑

數(shù)據(jù)平滑的基本思想：
調(diào)整最大似然估計(jì)的概率值,使零概率增值，使非零概率下調(diào)，“劫富濟(jì)貧”，消除零概率，改進(jìn)模型的整體正確率。
基本目標(biāo)：
測(cè)試樣本的語(yǔ)言模型困惑度越小越好。
困惑度定義

加1法
- 基本思想: 每一種情況出現(xiàn)的次數(shù)加1。
- 例如，對(duì)于 uni-gram，設(shè) w1, w2, w3 三個(gè)詞，概率分別為：1/3, 0, 2/3，加1后情況？
  - 2/6, 1/6, 3/6

以上是生活随笔為你收集整理的nlp5-n-gram/语言模型(数据平滑方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。