日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词器分词效果的评测方法

發布時間:2025/7/25 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文分词器分词效果的评测方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[原創]中文分詞器分詞效果的評測方法

2013年8月27日 由 learnhard留言 ?

轉載請注明出處:http://www.codelast.com/

現在有很多開源的中文分詞器庫,如果你的項目要選擇其一來實現中文分詞功能,必然要先評測它們的分詞效果。如何評測?下面詳細敘述。

【1】黃金標準/Golden standard

所謂的黃金標準是指:評價一個分詞器分詞結果的好壞,必然要有一份“公認正確”的分詞結果數據來作為參照。 通常,我們使用一份人工標注的數據作為黃金標準。但是,就算是人工標注的數據,每個人對同一句話的分詞結果恐怕也持有不同的意見,例如,有一句話“科學技術是第一生產力”,有人說應該這樣分詞:“科學技術 是 第一 生產力”,又有人說應該這樣分詞:“科學 技術 是 第一 生產力”。那么,到底哪種才是對的呢?
因此,要找有權威的分詞數據來做為黃金標準。
大家可以使用SIGHAN(國際計算語言學會(ACL)中文語言處理小組)舉辦的國際中文語言處理競賽Second International Chinese Word Segmentation Bakeoff(http://sighan.cs.uchicago.edu/bakeoff2005/)所提供的公開數據來評測,它包含了多個測試集以及對應的黃金標準分詞結果。
文章來源:http://www.codelast.com/
【2】評價指標
精度(Precision)、召回率(Recall)、F值(F-mesure)是用于評價一個信息檢索系統的質量的3個主要指標,以下分別簡記為P,R和F。同時,還可以把錯誤率(Error Rate)作為分詞效果的評價標準之一(以下簡記為ER)。
直觀地說,精度表明了分詞器分詞的準確程度;召回率也可認為是“查全率”,表明了分詞器切分正確的詞有多么全;F值綜合反映整體的指標;錯誤率表明了分詞器分詞的錯誤程度。
P、R、F越大越好,ER越小越好。一個完美的分詞器的P、R、F值均為1,ER值為0。
通常,召回率和精度這兩個指標會相互制約。

例如,還是拿上面那句話作為例子:“科學技術是第一生產力”(黃金標準為“科學技術 是 第一 生產力”),假設有一個分詞器很極端,把幾乎所有前后相連的詞的組合都作為分詞結果,就像這個樣子:“科學 技術 科學技術 是 是第一 第一生產力 生產力”,那么毫無疑問,它切分正確的詞已經覆蓋了黃金標準中的所有詞,即它的召回率(Recall)很高。但是由于它分錯了很多詞,因此,它的精度(Precision)很低。

因此,召回率和精度這二者有一個平衡點,我們希望它們都是越大越好,但通常不容易做到都大。
文章來源:http://www.codelast.com/
為了陳述上述指標的計算方法,先定義如下數據:
:黃金標準分割的單詞數
:分詞器錯誤標注的單詞數
:分詞器正確標注的單詞數

則以上各指標的計算公式如下:

文章來源:http://www.codelast.com/
【3】正確及錯誤標注的計數算法

如上所述,我們要先計算出e和c,才能計算出各指標值。是按如下算法來統計的: 在“黃金標準”和“待評測的結果”中,理論上,除了分詞后添加的空格之外,它們所有的文字都是相同的;唯一的不同就在于那些有差異的分詞結果的位置上。例如,“計算機 是個 好東西”(黃金標準)與“計算機 是 個 好東西”(待評測的結果)的差異就在于“是個”與“是 個”的差異,其余分詞結果都是相同的。因此,只需要找到這種差異的個數,就可以統計出分詞器正確標注了多少個詞、錯誤標注了多少個詞。
? 以下面的分詞結果為例: “計算機 總是 有問題”——黃金標準 “計算機 總 是 有問題”——待評測的結果
? 給分出來的每個詞都做位置的標記(位置從1開始): (1,4),(4,6),(6,9) ——黃金標準 (1,4),(4,5),(5,6),(6,9) ——待評測的結果
文章來源:http://www.codelast.com/ 那么我們會發現,(1,4)和(6,9)這兩個詞是相同的(即“計算機”和“有問題”),而差異在于(4,6)和(4,5),(5,6)(即“總是”和“總 是”),因此,我們只需要比較這兩個標注結果中的差異數,就可以知道分詞器正確、錯誤地標注了多少個單詞。在此例中,正確的標注的單詞數為2,錯誤標注的單詞數為2。
? 需要說明的是:在此例中,也可以認為錯誤標注的單詞數為1(即“總是”與“總 是”的差異),按照最大錯誤數來算會使錯誤率升高(在分詞精度很差的情況下,可能會導致ER>100%),不過,在所有分詞器都使用同一標準來評測的情況下,也就會很公平,并不會影響到最終的結論。

有了上面的算法,就很容易寫出一個評測程序了。這里就不把程序放上來了。
文章來源:http://www.codelast.com/
【4】參考文獻
?Word Segmentation: Quick but not Dirty.

Timothy Gambell 1814 Clover Lane Fort Worth, TX 76107, timothy.gambell@aya.yale.edu Charles Yang* Department of Linguistics, Yale University New Haven, CT 06511, charles.yang@yale.edu

?Chinese Segmentation and New Word Detection using Conditional Random Fields
Fuchun Peng, Fangfang Feng, Andrew McCallum, Computer Science Department, University of Massachusetts Amherst, 140 Governors Drive, Amherst, MA, U.S.A. 01003, {fuchun, feng, mccallum}@cs.umass.edu
?A Compression-based Algorithm for Chinese Word Segmentation

W. J. Teahan,?The Robert Gordon University Rodger McNab,?University of Waikato Yingying Wen,?University of Waikato Ian H. Witten,?University of Waikato

總結

以上是生活随笔為你收集整理的中文分词器分词效果的评测方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。