當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计自然语言处理基础（一）

發(fā)布時間：2024/9/30 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了统计自然语言处理基础（一）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

基礎(chǔ)認(rèn)知

語言學(xué)的目的是為了能夠描述和解釋我們周圍的語言現(xiàn)象。

人們對在自然語言處理中使用統(tǒng)計方法抱有的熱情，在很大程度上是因為他們看到了統(tǒng)計方法在解決實際問題時的前景，而這些問題正是傳統(tǒng)方法無法解決的。大家對語言使用形式的頻率感興趣是有清晰的，毋庸置疑的科學(xué)原因的。（統(tǒng)計學(xué)是研究語言的一種方法）

語言和認(rèn)知是隨機(jī)現(xiàn)象：把概率作為理解語言的一種科學(xué)方法的最基本論點認(rèn)為，人類的認(rèn)知是隨機(jī)的，因此語言也是隨機(jī)的，因為它是認(rèn)知的一個完整部分。

在語言中，大部分句子都是二值可分的（合乎語法、不合乎語法），而且在大多數(shù)情況下，單詞只使用一個詞性，沒有詞性混合的現(xiàn)象。但是如果語言和認(rèn)知作為一個整體，最好的解釋就是概率，那么解釋語言理論的中心內(nèi)容就必須是概率論。

數(shù)學(xué)基礎(chǔ)

概率論基礎(chǔ)
信息論基礎(chǔ)

語料庫—計算機(jī)

統(tǒng)計自然語言處理方法不僅需要大量的空間來存儲語料，而且經(jīng)常需要從語料庫中收集大量的統(tǒng)計信息，所以要求計算機(jī)有比較快的存取速度。這就需要一臺硬盤足夠大，內(nèi)存足夠多的計算機(jī)。

搭配

“搭配”是由兩個或兩個以上的詞所組成的語言表示，相當(dāng)于說某些事情的習(xí)慣方式。

1.頻率
在一個文本語料庫中尋找搭配的最簡單的方法就是計數(shù)。如果兩個詞在一起出現(xiàn)了很多次，那么這就是一個證據(jù)，說明它們有特殊的功能，這種功能不能簡單解釋為兩個詞合并而導(dǎo)致的結(jié)果。
2.均值和方差
基于頻率的搜索方法可以很好地解決固定短語的識別問題，但是很多搭配是兩詞搭配，并且彼此之間的關(guān)系非常靈活。
對于有些組合來說，它可能不是一個我們想要的嚴(yán)格術(shù)語意義上的搭配，但是對于文本生成的目的來說它可能非常有用。如果我們想要尋找這樣的詞匯組合，在這些詞匯組合之間的聯(lián)系比固定短語之間的聯(lián)系更加松散，并且在他們之間插入的符號及其相對位置都是可變的，那么這種基于方差的搭配發(fā)現(xiàn)方法是一個正確的選擇。
3. 假設(shè)檢驗
我們掩蓋至今的一個難題是，高頻率和低方差可能是偶然出現(xiàn)的。如果一個頻繁出現(xiàn)的二元組的兩個構(gòu)成詞也是頻繁出現(xiàn)的詞，那么我們可以預(yù)期這兩個詞同現(xiàn)很多次僅僅是一個偶然現(xiàn)象，它們甚至不能形成一個搭配。
事實上，我們真正想知道的是兩個詞同現(xiàn)的次數(shù)是否比偶然同現(xiàn)的次數(shù)更多。評價一個事件是否是偶然事件是統(tǒng)計學(xué)的經(jīng)典問題之一。我們通常用假設(shè)檢驗來評價。
4.互信息
粗略地說是一種度量形式，表明一個詞和其他詞語有多大的聯(lián)系。
我們可以說，互信息是衡量獨立性的一種很好的方法。接近0的互信息值表明了獨立性。但是互信息不是衡量依賴性的一種很好的方法，因為對于依賴性來說，互信息的值是由單獨詞的頻率決定的。

總結(jié)

以上是生活随笔為你收集整理的统计自然语言处理基础（一）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：投资小利润高的小生意这几种入门特别低
下一篇：数据可视化（matplotlib绘图）