php盘古分词,百度分词技术_百度输入法分词怎么关_百度分词原理
一直想把自己整理的
想做到天衣無縫,就必須認(rèn)認(rèn)真真學(xué)會百度分詞技術(shù),當(dāng)然這些分詞技術(shù)是王施帆個(gè)人推測分析出來的,百度自己的科研技術(shù)是不可能公開的,畢竟競爭對手那么多,都掌握了,市場也亂了不是?下面這些推測,肯定不是隨隨便便想出來的,是通過數(shù)據(jù)分析的,這點(diǎn),請各位放心。
百度分詞的4個(gè)原理:
1、基于理解:傻瓜式匹配,小于等于3個(gè)中文字符百度是不進(jìn)行切詞的,比如搜索“大學(xué)堂”。
2、基于統(tǒng)計(jì):百度把一個(gè)詞標(biāo)紅的原因:標(biāo)紅的詞一般是一個(gè)關(guān)鍵詞,你搜索“學(xué)”字的時(shí)候,百度它自認(rèn)的把“學(xué)習(xí)”也當(dāng)成了一個(gè)關(guān)鍵詞,所以出現(xiàn)“學(xué)習(xí)”這個(gè)詞標(biāo)紅,這就是百度分詞法:基于統(tǒng)計(jì)分詞。
3、基于字符串匹配(百度的分詞法:正向最大切詞法)
最大與最小(最大匹配:一直匹配到?jīng)]詞可配;最小匹配:匹配出詞了就停止匹配,再從另一個(gè)詞開始匹配)比如:百度搜索“湖南大學(xué)堂屋頂”,百度的一個(gè)分詞算法我們把它當(dāng)成一個(gè)黑盒子,我們通過一些輸入關(guān)鍵詞,根據(jù)百度的輸出結(jié)果來判定百度的分詞算法。正向與反向(正向:從前往后配;反向:從后往前配)(湖南大學(xué)堂屋頂)正向分法:湖南大學(xué) 堂屋 頂 (劉強(qiáng)大地方法)正向分法:劉 強(qiáng)大 地方 法。反向分法:方法 大地 劉 強(qiáng)。而在這個(gè)詞語當(dāng)中“大地”不是一個(gè)詞。百度分詞技術(shù)
4、基于專有詞庫。比如杰出人物(如:)明星(如:劉德華)檢索量大的詞(如:買票難) 。
分詞工具(沒有百度的,要是有,就會出現(xiàn)問題,收集了幾個(gè)開源的分詞工具,詳細(xì)內(nèi)容后續(xù)補(bǔ)充):
1、ICTCLAS – 全球最受歡迎的漢語分詞系統(tǒng)
2、HTTPCWS – 基于HTTP協(xié)議的開源中文分詞系統(tǒng)
3、SCWS – 簡易中文分詞系統(tǒng)
4、PhpanAlysis - PHP無組件分詞系統(tǒng)
5 、MMSEG4J
6、盤古分詞
7、IKAnalyzer 開源的輕量級中文分詞工具包
中文分詞API(百度不提供該服務(wù)):
新浪SAE平臺上提供的分詞功能
官網(wǎng)說明:,SAE分詞系統(tǒng)基于隱馬模型開發(fā)出的漢語分析系統(tǒng),主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、新詞識別。
調(diào)用規(guī)則:?key=simon&wd={語句}
百度分詞的一些猜測:
1. 判斷用戶提交字符串,如果為多個(gè)字符串,則通過空格,標(biāo)點(diǎn)符號,等進(jìn)行切割。
2. 判斷提交字符串中有無字母或者數(shù)字,如果有把字母與數(shù)字當(dāng)作獨(dú)立整體,并把這個(gè)整體當(dāng)作切割負(fù),進(jìn)行前后切割。
3. 判斷切割后的詞組有無重復(fù)詞,有當(dāng)作一個(gè)計(jì)算。
4. 如果提交為一個(gè)字符串,判斷字符串字?jǐn)?shù),大于4并等于4個(gè)字的進(jìn)行切割,如果小于4個(gè)字不進(jìn)行任何處理。
5. 對照特殊詞庫表進(jìn)行提取,如果字符串中包含特殊詞進(jìn)行單獨(dú)提取。
6. 進(jìn)行正向分詞處理。
7. 進(jìn)行反向分詞處理。
8. 正向分詞結(jié)果與反向分詞結(jié)果進(jìn)行對比,如果結(jié)果一樣,直接輸出。
9. 如果結(jié)果不一樣,輸出最短路徑(詞數(shù)最少的)進(jìn)行輸出。
10. 如果長度一樣進(jìn)行則輸出單子最少的結(jié)果。
11. 如果單子最少結(jié)果一樣,則輸出正向分詞結(jié)果。
針對百度索引提示,糾錯(cuò)原理。
1.判讀詞組,1個(gè)字的詞不進(jìn)行提示,大于1個(gè)字開啟提示功能。
1.進(jìn)行同音字提示,如果詞數(shù)過多,提取用戶搜索最多詞組進(jìn)行提示。
除以上外,我們還需要注意一點(diǎn),那就是現(xiàn)在分詞中進(jìn)行了語意相關(guān)結(jié)合:
舉個(gè)例子我們常常在搜索某些詞的時(shí)候會發(fā)現(xiàn)有些結(jié)果中并不是完全匹配的詞也進(jìn)行了飄紅。百度分詞技術(shù)其實(shí)這種情況就是語意結(jié)合。我們可以理解為百度把相關(guān)詞表進(jìn)行了關(guān)聯(lián),或者干脆進(jìn)行了表結(jié)合。造成了這種情況的出現(xiàn)。
比如我們搜索太原,我們會發(fā)現(xiàn)太原與太原市都進(jìn)行了飄紅。
百度分詞的幾個(gè)精彩例子:
本文來自電腦雜談,轉(zhuǎn)載請注明本文網(wǎng)址:
http://www.pc-fly.com/a/jisuanjixue/article-37624-1.html
總結(jié)
以上是生活随笔為你收集整理的php盘古分词,百度分词技术_百度输入法分词怎么关_百度分词原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux中DNS服务器地址查询命令ns
- 下一篇: 各大搜索引擎Ping服务 php实现方法