统计自然语言处理基础(一)
基礎(chǔ)認(rèn)知
語言學(xué)的目的是為了能夠描述和解釋我們周圍的語言現(xiàn)象。
人們對在自然語言處理中使用統(tǒng)計方法抱有的熱情,在很大程度上是 因為他們看到了統(tǒng)計方法在解決實際問題時的前景,而這些問題正是傳統(tǒng)方法無法解決的。大家對語言使用形式的頻率感興趣是有清晰的,毋庸置疑的科學(xué)原因的。(統(tǒng)計學(xué)是研究語言的一種方法)
語言和認(rèn)知 是隨機(jī)現(xiàn)象:把概率作為理解語言的一種科學(xué)方法的最基本論點認(rèn)為,人類的認(rèn)知是隨機(jī)的,因此語言也是隨機(jī)的,因為它是認(rèn)知的一個完整部分。
在語言中,大部分句子都是二值可分的(合乎語法、不合乎語法),而且在大多數(shù)情況下,單詞只使用一個詞性,沒有詞性混合的現(xiàn)象。但是如果語言和認(rèn)知作為一個整體,最好的解釋就是概率,那么解釋語言理論的中心內(nèi)容就必須是概率論。
數(shù)學(xué)基礎(chǔ)
- 概率論基礎(chǔ)
- 信息論基礎(chǔ)
語料庫—計算機(jī)
統(tǒng)計自然語言處理方法不僅需要大量的空間來存儲語料,而且經(jīng)常需要從語料庫中收集大量的統(tǒng)計信息,所以要求計算機(jī)有比較快的存取速度。這就需要一臺硬盤足夠大,內(nèi)存足夠多的計算機(jī)。
搭配
“搭配”是由兩個或兩個以上的詞所組成的語言表示,相當(dāng)于說某些事情的習(xí)慣方式。
1.頻率
在一個文本語料庫中尋找搭配的最簡單的方法就是計數(shù)。如果兩個詞在一起出現(xiàn)了很多次,那么這就是一個證據(jù),說明它們有特殊的功能,這種功能不能簡單解釋為兩個詞合并而導(dǎo)致的結(jié)果。
2.均值和方差
基于頻率的搜索方法可以很好地解決固定短語的識別問題,但是很多搭配是兩詞搭配,并且彼此之間的關(guān)系非常靈活。
對于有些組合來說,它可能不是一個我們想要的嚴(yán)格術(shù)語意義上的搭配,但是對于文本生成的目的來說它可能非常有用。如果我們想要尋找這樣的詞匯組合,在這些詞匯組合之間的聯(lián)系比固定短語之間的聯(lián)系更加松散,并且在他們之間插入的符號及其相對位置都是可變的,那么這種基于方差的搭配發(fā)現(xiàn)方法是一個正確的選擇。
3. 假設(shè)檢驗
我們掩蓋至今的一個難題是,高頻率和低方差可能是偶然出現(xiàn)的。如果一個頻繁出現(xiàn)的二元組的兩個構(gòu)成詞也是頻繁出現(xiàn)的詞,那么我們可以預(yù)期這兩個詞同現(xiàn)很多次僅僅是一個偶然現(xiàn)象,它們甚至不能形成一個搭配。
事實上,我們真正想知道的是兩個詞同現(xiàn)的次數(shù)是否比偶然同現(xiàn)的次數(shù)更多。評價一個事件是否是偶然事件是統(tǒng)計學(xué)的經(jīng)典問題之一。我們通常用假設(shè)檢驗來評價。
4.互信息
粗略地說是一種度量形式,表明一個詞和其他詞語有多大的聯(lián)系。
我們可以說,互信息是衡量獨立性的一種很好的方法。接近0的互信息值表明了獨立性。但是互信息不是衡量依賴性的一種很好的方法,因為對于依賴性來說,互信息的值是由單獨詞的頻率決定的。
總結(jié)
以上是生活随笔為你收集整理的统计自然语言处理基础(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 投资小利润高的小生意 这几种入门特别低
- 下一篇: 数据可视化(matplotlib绘图)