日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理期末复习(2)中文分词

發布時間:2025/3/19 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理期末复习(2)中文分词 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.漢語分詞:通過計算機程序把組成漢語文本的字串自動轉換

為詞串的過程被稱為自動切分

2.漢語切分的原因:(1)語音的合成(2)信息檢索(3)詞語計量分析

3.漢語分詞基本方法:(1)基于詞表的方法(2)字序列標記方法

4.最大匹配法

(1)??正向最大匹配法(MM) 從左向右匹配詞表

(2)??逆向最大匹配法(RMM) 從右向左匹配詞表

5.歧義的類型

(1)交集型歧義:AJ/B、A/JB

交集型歧義字段中交集字段的個數,稱作鏈長

(2)組合型歧義: ?AB、A/B

(3)混合型歧義:?? 同時包含交集型歧義和組合型歧義的歧義字段

6.偽歧義: 歧義字段單獨拿出來看有歧義,但在(所有)真實語境中只有一種切分方式可接受。

真歧義:歧義字段在不同語境中確有多種切分方式,(1) 多種切分形式均勻分布 12% (2) 一種切分形式占優 88%

7.歧義的發現:

雙向最大匹配(MM+RMM)

– 同時使用MM法和RMM法

– 如果MM法和RMM法給出同樣的結果,認為沒

有歧義,若不同,則認為出現了歧義

發現組合型歧義

– MM+逆向最小匹配法

發現所有切分歧義

– 全切分算法

8歧義消解

基于規則的歧義消解。

基于統計的歧義消解:在詞圖上搜尋統計意義上的最佳路徑????????????????????????????

9.中文人名識別:計算一個可能的人名字串的概率,若其概率大于某個閾值,則判別為人名。


總結

以上是生活随笔為你收集整理的自然语言处理期末复习(2)中文分词的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。