日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计自然语言处理基础(一)

發(fā)布時間:2024/9/30 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 统计自然语言处理基础(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

基礎(chǔ)認(rèn)知

語言學(xué)的目的是為了能夠描述和解釋我們周圍的語言現(xiàn)象。
人們對在自然語言處理中使用統(tǒng)計方法抱有的熱情,在很大程度上是 因為他們看到了統(tǒng)計方法在解決實際問題時的前景,而這些問題正是傳統(tǒng)方法無法解決的。大家對語言使用形式的頻率感興趣是有清晰的,毋庸置疑的科學(xué)原因的。(統(tǒng)計學(xué)是研究語言的一種方法)
語言和認(rèn)知 是隨機(jī)現(xiàn)象:把概率作為理解語言的一種科學(xué)方法的最基本論點認(rèn)為,人類的認(rèn)知是隨機(jī)的,因此語言也是隨機(jī)的,因為它是認(rèn)知的一個完整部分。
在語言中,大部分句子都是二值可分的(合乎語法、不合乎語法),而且在大多數(shù)情況下,單詞只使用一個詞性,沒有詞性混合的現(xiàn)象。但是如果語言和認(rèn)知作為一個整體,最好的解釋就是概率,那么解釋語言理論的中心內(nèi)容就必須是概率論。

數(shù)學(xué)基礎(chǔ)

  • 概率論基礎(chǔ)
  • 信息論基礎(chǔ)

語料庫—計算機(jī)

統(tǒng)計自然語言處理方法不僅需要大量的空間來存儲語料,而且經(jīng)常需要從語料庫中收集大量的統(tǒng)計信息,所以要求計算機(jī)有比較快的存取速度。這就需要一臺硬盤足夠大,內(nèi)存足夠多的計算機(jī)。

搭配

“搭配”是由兩個或兩個以上的詞所組成的語言表示,相當(dāng)于說某些事情的習(xí)慣方式。

1.頻率
在一個文本語料庫中尋找搭配的最簡單的方法就是計數(shù)。如果兩個詞在一起出現(xiàn)了很多次,那么這就是一個證據(jù),說明它們有特殊的功能,這種功能不能簡單解釋為兩個詞合并而導(dǎo)致的結(jié)果。
2.均值和方差
基于頻率的搜索方法可以很好地解決固定短語的識別問題,但是很多搭配是兩詞搭配,并且彼此之間的關(guān)系非常靈活。
對于有些組合來說,它可能不是一個我們想要的嚴(yán)格術(shù)語意義上的搭配,但是對于文本生成的目的來說它可能非常有用。如果我們想要尋找這樣的詞匯組合,在這些詞匯組合之間的聯(lián)系比固定短語之間的聯(lián)系更加松散,并且在他們之間插入的符號及其相對位置都是可變的,那么這種基于方差的搭配發(fā)現(xiàn)方法是一個正確的選擇。
3. 假設(shè)檢驗
我們掩蓋至今的一個難題是,高頻率和低方差可能是偶然出現(xiàn)的。如果一個頻繁出現(xiàn)的二元組的兩個構(gòu)成詞也是頻繁出現(xiàn)的詞,那么我們可以預(yù)期這兩個詞同現(xiàn)很多次僅僅是一個偶然現(xiàn)象,它們甚至不能形成一個搭配。
事實上,我們真正想知道的是兩個詞同現(xiàn)的次數(shù)是否比偶然同現(xiàn)的次數(shù)更多。評價一個事件是否是偶然事件是統(tǒng)計學(xué)的經(jīng)典問題之一。我們通常用假設(shè)檢驗來評價。
4.互信息
粗略地說是一種度量形式,表明一個詞和其他詞語有多大的聯(lián)系。
我們可以說,互信息是衡量獨立性的一種很好的方法。接近0的互信息值表明了獨立性。但是互信息不是衡量依賴性的一種很好的方法,因為對于依賴性來說,互信息的值是由單獨詞的頻率決定的。

總結(jié)

以上是生活随笔為你收集整理的统计自然语言处理基础(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。