當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词器分词效果的评测方法

發布時間：2025/7/25 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了中文分词器分词效果的评测方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[原創]中文分詞器分詞效果的評測方法

2013年8月27日由 learnhard留言 ?

轉載請注明出處：http://www.codelast.com/

現在有很多開源的中文分詞器庫，如果你的項目要選擇其一來實現中文分詞功能，必然要先評測它們的分詞效果。如何評測？下面詳細敘述。

【1】黃金標準/Golden standard

所謂的黃金標準是指：評價一個分詞器分詞結果的好壞，必然要有一份“公認正確”的分詞結果數據來作為參照。通常，我們使用一份人工標注的數據作為黃金標準。但是，就算是人工標注的數據，每個人對同一句話的分詞結果恐怕也持有不同的意見，例如，有一句話“科學技術是第一生產力”，有人說應該這樣分詞：“科學技術是第一生產力”，又有人說應該這樣分詞：“科學技術是第一生產力”。那么，到底哪種才是對的呢？
因此，要找有權威的分詞數據來做為黃金標準。
大家可以使用SIGHAN（國際計算語言學會（ACL）中文語言處理小組）舉辦的國際中文語言處理競賽Second International Chinese Word Segmentation Bakeoff（http://sighan.cs.uchicago.edu/bakeoff2005/）所提供的公開數據來評測，它包含了多個測試集以及對應的黃金標準分詞結果。
文章來源：http://www.codelast.com/
【2】評價指標
精度（Precision）、召回率（Recall）、F值（F-mesure）是用于評價一個信息檢索系統的質量的3個主要指標，以下分別簡記為P，R和F。同時，還可以把錯誤率（Error Rate）作為分詞效果的評價標準之一（以下簡記為ER）。
直觀地說，精度表明了分詞器分詞的準確程度；召回率也可認為是“查全率”，表明了分詞器切分正確的詞有多么全；F值綜合反映整體的指標；錯誤率表明了分詞器分詞的錯誤程度。
P、R、F越大越好，ER越小越好。一個完美的分詞器的P、R、F值均為1，ER值為0。
通常，召回率和精度這兩個指標會相互制約。

例如，還是拿上面那句話作為例子：“科學技術是第一生產力”（黃金標準為“科學技術是第一生產力”），假設有一個分詞器很極端，把幾乎所有前后相連的詞的組合都作為分詞結果，就像這個樣子：“科學技術科學技術是是第一第一生產力生產力”，那么毫無疑問，它切分正確的詞已經覆蓋了黃金標準中的所有詞，即它的召回率（Recall）很高。但是由于它分錯了很多詞，因此，它的精度（Precision）很低。

因此，召回率和精度這二者有一個平衡點，我們希望它們都是越大越好，但通常不容易做到都大。
文章來源：http://www.codelast.com/
為了陳述上述指標的計算方法，先定義如下數據：
：黃金標準分割的單詞數
：分詞器錯誤標注的單詞數
：分詞器正確標注的單詞數

則以上各指標的計算公式如下：

文章來源：http://www.codelast.com/
【3】正確及錯誤標注的計數算法

如上所述，我們要先計算出e和c，才能計算出各指標值。

和

是按如下算法來統計的：在“黃金標準”和“待評測的結果”中，理論上，除了分詞后添加的空格之外，它們所有的文字都是相同的；唯一的不同就在于那些有差異的分詞結果的位置上。例如，“計算機是個好東西”（黃金標準）與“計算機是個好東西”（待評測的結果）的差異就在于“是個”與“是個”的差異，其余分詞結果都是相同的。因此，只需要找到這種差異的個數，就可以統計出分詞器正確標注了多少個詞、錯誤標注了多少個詞。
? 以下面的分詞結果為例： “計算機總是有問題”——黃金標準 “計算機總是有問題”——待評測的結果
? 給分出來的每個詞都做位置的標記（位置從1開始）： (1,4)，(4,6)，(6,9) ——黃金標準 (1,4)，(4,5)，(5,6)，(6,9) ——待評測的結果
文章來源：http://www.codelast.com/ 那么我們會發現，(1,4)和(6,9)這兩個詞是相同的（即“計算機”和“有問題”），而差異在于(4,6)和(4,5)，(5,6)（即“總是”和“總是”），因此，我們只需要比較這兩個標注結果中的差異數，就可以知道分詞器正確、錯誤地標注了多少個單詞。在此例中，正確的標注的單詞數為2，錯誤標注的單詞數為2。
? 需要說明的是：在此例中，也可以認為錯誤標注的單詞數為1（即“總是”與“總是”的差異），按照最大錯誤數來算會使錯誤率升高（在分詞精度很差的情況下，可能會導致ER>100%），不過，在所有分詞器都使用同一標準來評測的情況下，也就會很公平，并不會影響到最終的結論。

有了上面的算法，就很容易寫出一個評測程序了。這里就不把程序放上來了。
文章來源：http://www.codelast.com/
【4】參考文獻
①?Word Segmentation: Quick but not Dirty.

Timothy Gambell 1814 Clover Lane Fort Worth, TX 76107, timothy.gambell@aya.yale.edu Charles Yang* Department of Linguistics, Yale University New Haven, CT 06511, charles.yang@yale.edu

②?Chinese Segmentation and New Word Detection using Conditional Random Fields
Fuchun Peng, Fangfang Feng, Andrew McCallum, Computer Science Department, University of Massachusetts Amherst, 140 Governors Drive, Amherst, MA, U.S.A. 01003, {fuchun, feng, mccallum}@cs.umass.edu
③?A Compression-based Algorithm for Chinese Word Segmentation

W. J. Teahan,?The Robert Gordon University Rodger McNab,?University of Waikato Yingying Wen,?University of Waikato Ian H. Witten,?University of Waikato

總結

以上是生活随笔為你收集整理的中文分词器分词效果的评测方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于用户的协同过滤和皮尔逊相关系数
下一篇： Weka使用笔记