日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

0-1语言建模当中会遇到的问题

發布時間:2023/12/19 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 0-1语言建模当中会遇到的问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在對語言建模之前,先來說明一些基本的簡單的概念。

我們假設:

有這樣一個集合,在這個集合里面,是我們所有的涉及到的單詞集,并且這個單詞的集合是有限的(finite)。為了表示這個集合,用字母V來表示,例如V={the,a,man,telescopo,Beckham,two…}

有了單詞的集合,然后還需要有一個單詞串的集合,為了更形象的解釋,比如:

the STOP

a STOP

the fan STOP

the fan saw Beckham STOP

the fan saw saw STOP

the fan saw Beckham play for Real Madrid STOP

這個單詞串的集合使用V+來表示。

為什么在每個的末尾要加一個STOP呢,這在以后的學習當中會用到,他有利于幫助我們開發一個概率模型。(convenient start to develop a probabilistic model)

現在有了上面的定義,繼續探討自然語言處理建模當中的問題。

現在:

  • 我們有一個有許多句子的樣本,叫它訓練樣本training sample.
  • 我們需要學習一個概率分布p(learn a probability distribution p),p滿足下面的條件:

???????

????????? 這個公式向我們表明了,x屬于V+當中的元素,所有其中的元素的概率相加結果應該是1.

為了更形象的說明P是什么,可以看下面的例子:

那么,整體的流程是怎樣的呢?

我們把training sample測試樣本當中的句子當作輸入input,經過模型的處理,最終的輸出便是p(output)。這是我們建立模型的作用。

為什么要做這些事情(這些事情指的是上面的準備測試樣本,計算概率、建模等)?

起初,研究這些是為了解決語音識別當中遇到的難題,相關的還有手寫識別等。這些技術的發展在NLP的很多領域樓來都證明十分的有用。

這些概率p該怎么計算出來呢?

原始的辦法:

  • 假設我們有N個訓練用的句子sentences
  • 每一個單詞串,用x1 x2 x3…xn來表示,x表示每一個單詞。使用c(x1…xn)來表示這個單詞串在訓練數據training data當中出現的次數。
  • 計算方法為:p(x1…xn)=c(x1…xn)/N

這個辦法,剛一看到會覺得沒有什么不妥,其實如果細心的話可以發現這個公式是有問題的。如果某一個單詞串并沒有在訓練數據中出現,那么這個概率p的值就會變為0,如果P=0的話,那么就沒有能力去生成新的句子(has no ability to generalize to new sentences)。因為,在訓練樣本中沒有出現,并不代表在測試的時候或者在實際生活中p=0的單詞串不會出現,所以,必須要解決p=0的問題,在0-4中會提到。

轉載于:https://www.cnblogs.com/createMoMo/p/3189892.html

總結

以上是生活随笔為你收集整理的0-1语言建模当中会遇到的问题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。