日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

nlp5-n-gram/语言模型(数据平滑方法

發(fā)布時(shí)間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 nlp5-n-gram/语言模型(数据平滑方法 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 1.句子的先驗(yàn)概率
    • 1.1 n-gram
  • 2. 參數(shù)估計(jì)
  • 3. 數(shù)據(jù)平滑
    • 3.1 數(shù)據(jù)平滑度方法
      • 3.1.1加1法
      • 3.1.2減

1.句子的先驗(yàn)概率

  • 這個(gè)聯(lián)合概率太小了
    • 窗口越大,共現(xiàn)的可能性越小
    • 參數(shù)多
  • 解決:等價(jià)類
    • 不看所有的歷史信息
    • 只看部分歷史信息,但看所有的歷史等價(jià)
  • 如何劃分等價(jià)類
    將兩個(gè)歷史映射到同一個(gè)等價(jià)類,當(dāng)且僅當(dāng)這兩個(gè)歷史中的最近 n-1 個(gè)基元相同,即:

1.1 n-gram

  • 這種情況下的語(yǔ)言模型稱為 n 元文法(n-gram)模型
    • ?當(dāng) n=1 時(shí),即出現(xiàn)在第 i 位上的基元 wi 獨(dú)立于歷史。一元文法也被寫為 uni-gram 或 monogram;
    • ?當(dāng) n=2 時(shí), 2-gram (bi-gram) 被稱為1階馬爾可夫鏈;—效果比1好一點(diǎn)
    • ?當(dāng) n=3 時(shí), 3-gram(tri-gram)被稱為2階馬爾可夫鏈,
    • 依次類推。
  • 為了保證條件概率在 i=1 時(shí)有意義,同時(shí)為了保證句子內(nèi)所有字符串的概率和為 1,即 ,可以在句子首尾兩端增加兩個(gè)標(biāo)志: w1 w2 … wm 。不失一般性,對(duì)于n>2 的 n-gram,p(s) 可以分解為:
  • eg
  • 拼音轉(zhuǎn)文字
  • 樣本空間
    • 1?N,2?N21-N,2-N^21?N,2?N2
    • 對(duì)漢語(yǔ)來(lái)說(shuō)4-gram可能好一點(diǎn)
  • 漢語(yǔ)分詞問(wèn)題
    • 給定漢字串:他是研究生物的。
    • 可能的漢字串:
      • 他|是|研究生|物|的
      • 他|是|研究|生物|的
    • 2元文法:
      • p(Seg1) =p(他|)×p(是|他)×p(研究生|是)× p(物|研究生)×p(的|物)×p(的|)
      • p(Seg2) = p(他|)×p(是|他)×p(研究|是)× p(生物|研究)×p(的|生物)× p(的|)

2. 參數(shù)估計(jì)

  • 訓(xùn)練語(yǔ)料(training data):用于建立模型,確定模型參數(shù)的已知語(yǔ)料。
  • 最大似然估計(jì)(maximum likelihood Evaluation, MLE):用相對(duì)頻率計(jì)算概率的方法。
  • 存在問(wèn)題:沒(méi)有出現(xiàn)過(guò)的詞怎么辦?概率為0數(shù)據(jù)匱乏(稀疏) (Sparse Data) 引起零概率問(wèn)題
    • 解決:數(shù)據(jù)平滑

3. 數(shù)據(jù)平滑

  • 數(shù)據(jù)平滑的基本思想:
    調(diào)整最大似然估計(jì)的概率值,使零概率增值,使非零概率下調(diào),“劫富濟(jì)貧”,消除零概率,改進(jìn)模型的整體正確率。
  • 基本目標(biāo):
    測(cè)試樣本的語(yǔ)言模型困惑度越小越好。
  • 困惑度定義

3.1 數(shù)據(jù)平滑度方法

3.1.1加1法

  • 加1法
    • 基本思想: 每一種情況出現(xiàn)的次數(shù)加1。
    • 例如,對(duì)于 uni-gram,設(shè) w1, w2, w3 三個(gè)詞,概率分別為:1/3, 0, 2/3,加1后情況?
      • 2/6, 1/6, 3/6

3.1.2減

總結(jié)

以上是生活随笔為你收集整理的nlp5-n-gram/语言模型(数据平滑方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。