日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

mmseg java_MMSeg中文分词算法

發(fā)布時(shí)間:2023/12/15 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 mmseg java_MMSeg中文分词算法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Java中有一些開源的分詞項(xiàng)目,比如:IK、Paoding、MMSEG4J等等。這里主要說的是MMSEG4J中使用的MMSeg算法。它的原文介紹在:http://technology.chtsai.org/mmseg/,是用英文書寫的,這是只是它的一個(gè)中文筆記。

為什么中文要分詞

中文和英文的書寫方式不一樣,英文中單詞之間用空格隔開,而且每個(gè)單詞代表一個(gè)含義(當(dāng)然也有短語,但這占的比例不是主要的);中文的書寫是連在一起的,而且單個(gè)單詞常常與相鄰的單詞組合成一個(gè)詞語,代表一個(gè)含義。比如:“中學(xué)校長”,不能像英文那樣一個(gè)詞一個(gè)劃分,要?jiǎng)澐譃椤爸袑W(xué)”和“校長”兩個(gè)詞。如果我們的書寫習(xí)慣是每個(gè)詞語用空格分隔,那就像英文一樣不用分了。

一、劃分規(guī)則

把查詢語句劃分為3個(gè)word組成的chunk,每個(gè)word中存放一個(gè)詞語,這個(gè)詞語是字典中出現(xiàn)的一個(gè)字或詞組(多個(gè)字),對于剩下未劃分的子語句可以再使用這個(gè)規(guī)則劃分。

為什么chunk由3個(gè)word組成,而不是其它數(shù)值?

也許是漢語句子基本結(jié)構(gòu)是主謂賓3部分,而不劃為更多個(gè)的word,卻是在程序準(zhǔn)確性與性能之間做一個(gè)折中。

例如“眼看就要來了”或以分為以下幾種chunk

1、眼看 ? ?就要 來了

2、眼看 就要 來

3、眼看 就 要

4、眼 看 就要

5、眼 看 就

二、過濾規(guī)則

從上面的劃分可見,有多個(gè)chunk,為了選出唯一一個(gè)chunk,分別用四個(gè)規(guī)則過濾它們,當(dāng)然如果在某個(gè)過濾規(guī)則中已經(jīng)讓chunk剩存一個(gè),就退出后繼的過濾篩選。反之,如果使用了4個(gè)規(guī)則,仍然剩存1個(gè)以上的chunk,就拋出異常。這4個(gè)規(guī)則分別是:最大匹配、最大平均單詞長度、單詞長度最小方差和單字單詞語素自由度的最大和。

2.1、最大匹配

把3個(gè)word中的單詞個(gè)數(shù)相加,取總單詞長度最長的chunk。

上面第一個(gè)chunk單詞長度為6,所以取它。

2.2、最大平均單詞長度

就是chunk中單詞總數(shù)除以word個(gè)數(shù),如:

1、國際化

2、國際 化

3、國 際 化

這三個(gè)chunk的平均單詞長度都是1.

2.3、最小單詞長度方差

先回憶一下什么是方差?

方差就是各數(shù)據(jù)與樣本平均數(shù)的差的平方和的平均數(shù),公式:

[1/(n-1)][(x1-s)^2+(x2-s)^2+...+(xn-s)^2],其中的s為標(biāo)準(zhǔn)值。

方差用于衡量x1~xn群體與s之間的偏離程度,方差越小表明x1~xn群體與s越聚集。當(dāng)x1~xn都等于s時(shí),方差的值為0,表明它們聚焦在一個(gè)點(diǎn)。

比如有以下兩個(gè)chunk

1、小女 孩子 們

2、小 女孩子 們

x1~xn就是每個(gè)word中單詞的長度,標(biāo)準(zhǔn)值就是chunk中平均單詞長度

第一個(gè)chunk的值為:

[(2-5/3)^2+(2-5/3)^2+(1-5/3)^2]/3=[(1/3)^2+(1/3)^2+(-2/3)^2]/3=

(0.1111+0.1111+0.4444)/3=0.2222

第二個(gè)chunk的值為:

[(1-5/3)^2+(3-5/3)^2+(1-5/3)^2]/3=[(-2/3)^2+(4/3)^2+(-2/3)^2]/3=

(0.4444+1.7777+0.4444)/3=0.8888

所以取第1個(gè)chunk,當(dāng)然這個(gè)規(guī)則在這個(gè)例子中篩選錯(cuò)誤了,因?yàn)榈诙€(gè)chunks比較接近原意。

為什么取方差值最小的,因?yàn)檫@樣選對的概率比較高。

2.4最大單字單詞的語素自由度和

取出chunks中單詞個(gè)數(shù)為1的word,統(tǒng)計(jì)它們的單詞語素自由度之和。取語素自由度之和最高的chunk。一個(gè)高頻率的漢字更可能是一個(gè)單字單詞,也就有更高的語素自由度,而這個(gè)單詞的頻率是事先統(tǒng)計(jì)的,它記錄在一個(gè)預(yù)定義字典中。比如:

1、為首 要 考慮

2、為 首要 考慮

在1 chunks中,“要”的語素自由度為13.84,而在2中,“為”的語素自由度為13.64,說明“要”作為單個(gè)詞使用的概率高一些,所以這里選擇第一個(gè)chunk。當(dāng)然這個(gè)算法在這里也選錯(cuò)了。

MMSeg中計(jì)算自由度公式是:

Freq=(int)(Math.log(Integer.parseInt(rate))*100)

這個(gè)公式的目的是讓頻率值相差不大的詞擁有相同的自由度

從上面可以看到MMSeg算法劃分并不是完全準(zhǔn)確,官方說:“在一個(gè)由1013個(gè)單詞組成的樣本中,這個(gè)系統(tǒng)的正確識(shí)別率達(dá)到98.41%。”目前也沒有那個(gè)算法能做到100%準(zhǔn)確率,因?yàn)檎Z言對于計(jì)算機(jī)來說真是太復(fù)雜的。

總結(jié)

以上是生活随笔為你收集整理的mmseg java_MMSeg中文分词算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。