日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP复习资料(2)-三~五章:形式语言、语料库、语言模型

發布時間:2023/12/13 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP复习资料(2)-三~五章:形式语言、语料库、语言模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NLP復習資料-三~五章

  • 1.第三章:形式語言
  • 2.第四章:語料庫
  • 3.第五章:語言模型

國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。

1.第三章:形式語言

1.語言描述的三種途徑:窮舉法、語法描述(形式語言)、自動機

2.形式語言四元組表示,最左推導,最右推導,例3-1

3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)

4.p30上下文無關文法產生語言的句子派生樹、文法的二義性:有不止一棵以上的派生樹(關于 魯迅的文章-關于魯迅 的 文章)

5.有限自動機五元組表示,P39狀態變換圖

6.例3.8 正則文法與有限自動機之間的轉換

7p59 例3.9下推自動機的處理步驟

8.有限自動機用于英語的單詞拼寫檢查,采用深度優先算法在自動機選擇編輯距離最小路徑。P64編輯距離,P69 X截取范圍的確定 P

9有限狀態轉換機用于英語單詞形態分析(不僅有狀態轉換還有輸出:補全單詞和一個+)

2.第四章:語料庫

1.語料庫發展的三個階段:
20世紀50年代中期:早期、
1957-20世紀80年代:沉積時期、
20世紀80年代后:復蘇發展時期(主要特征:第二代語料庫相繼建成、基于語料庫的研究項目增多)語料庫復蘇的原因P15計算機迅速發展、轉換生成語言學派對語料庫語言的批判不都正確。

2.語料庫的類型:P21同質/異質,系統/專用,單語/多語,平衡語料庫(語料的代表性和平衡性),平行語料庫(雙語平行語料庫,機器翻譯),共時語料庫/歷時語料庫

3.語料庫建設中的問題:
設計時問題:靜態與動態,代表性與平衡性,規模,管理與維護
開發中為題:規范問題,產權問題p36

4.典型語料庫和:(記一兩個吧)
賓夕法尼亞大學的中文樹庫,詞性33類,句法23類P42
北京大學開發的CLKBp61
詞匯知識庫:
普林斯頓大學WordNet p78
知網HowNet p85

3.第五章:語言模型

1.基于大規模語料庫,出現了自然語言的統計處理方法,那么如何計算一個句子的概率呢?依據組成句子的詞語的聯合概率計算?詞之間不獨立,不行!那就考慮在歷史詞的基礎上考慮當前詞的概率,然后連乘。參數空間太大,不行!那就只考慮前n個歷史詞匯。OK呀~

2.p11 n元文法,n個鄰近的詞構成一個詞序列。P12句子n元次序列劃分的例子。

3.N元文法的兩個應用-音字轉換、漢語分詞,選擇概率最大的那個作為輸出就對了。

4.參數估計–n元文法中連乘的每個概率的計算,訓練語料庫中歷史一共出現的次數為分母,歷史與當前一同出現的為分子,一除,搞定。P27計算題

5.n元文法最主要的一個問題:數據稀疏,要計算語料庫中沒見到的情況,怎么辦?–數據平滑呀,基本思想–劫富濟貧。加1法p37計算題。減值法good-turingP41公式推導。Back-off方法P47基本思想。絕對減值法和線性減值法的思想。刪除價值法,低階代替高階,線性插值

5.模型自適應:前兩種方法都是線性插值多個模型:(1)緩存模型p62(2)不同類型模型p67 (3)最大熵模型p69

6.應用舉例:漢語分詞,
p77以詞序列為基本單位,效果不好,改成詞類序列為基本單位。P81語言模型和生成模型。P87的訓練步驟
p93分詞與詞性標注一體化的方法

總結

以上是生活随笔為你收集整理的NLP复习资料(2)-三~五章:形式语言、语料库、语言模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。