计算机语言学笔记(一)计算机语言学概论
1 計(jì)算機(jī)語言學(xué)概論
計(jì)算機(jī)語言學(xué):通過建立形式化的計(jì)算模型來分析、理解和處理自然語言的學(xué)科。
自然語言處理為了解決歧義等問題,常采用下面的對(duì)策。
交互式處理:人機(jī)互助進(jìn)行處理。
受限語言:限定處理文本的領(lǐng)域。
受控語言:限定語言的詞匯和句法,降低復(fù)雜度。
1.1 計(jì)算機(jī)語言學(xué)研究方法
研究方法:規(guī)則驅(qū)動(dòng)的方法,數(shù)據(jù)驅(qū)動(dòng)的方法和二者融合的方法。
規(guī)則驅(qū)動(dòng)的方法:語言學(xué)家對(duì)語言規(guī)律總結(jié),形成規(guī)則知識(shí)庫。研制處理算法,利用規(guī)則處理自然語言,研究人員根據(jù)結(jié)果調(diào)整規(guī)則,改進(jìn)處理結(jié)果。但是,很多基于規(guī)則的系統(tǒng)只能在很小的子集上表現(xiàn)良好,不能滿足真實(shí)文本處理的要求。
數(shù)據(jù)驅(qū)動(dòng)的方法(統(tǒng)計(jì)方法):建立語料庫,研究人員對(duì)自然語言進(jìn)行統(tǒng)計(jì)建模,利用統(tǒng)計(jì)技術(shù)或機(jī)器學(xué)習(xí)技術(shù),訓(xùn)練統(tǒng)計(jì)語言模型,利用模型設(shè)計(jì)算法處理語言,根據(jù)結(jié)果改進(jìn)模型。
在數(shù)據(jù)驅(qū)動(dòng)的方法中,語言模型通常體現(xiàn)為一組參數(shù),這些參數(shù)通常表示某個(gè)語言形式發(fā)生的概率值。
融合規(guī)則驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的方法:兩種方法的優(yōu)劣不能簡(jiǎn)單評(píng)價(jià),如何無縫結(jié)合尚需進(jìn)一步探索。
1.2 計(jì)算機(jī)語言學(xué)研究中的評(píng)測(cè)問題
為了評(píng)價(jià)各種方法的有效性,必須進(jìn)行客觀公正的評(píng)測(cè),客觀公正的評(píng)測(cè)有助于引導(dǎo)計(jì)算語言學(xué)朝著一個(gè)健康的方向發(fā)展。
1.3 計(jì)算機(jī)語言學(xué)的應(yīng)用
總結(jié)
以上是生活随笔為你收集整理的计算机语言学笔记(一)计算机语言学概论的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 处理tcga突变数据一点思考
- 下一篇: 女研究生因压力大欲跳海轻生 民警跳入冰冷