日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > php >内容正文

php

php盘古分词,百度分词技术_百度输入法分词怎么关_百度分词原理

發(fā)布時(shí)間:2023/12/20 php 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 php盘古分词,百度分词技术_百度输入法分词怎么关_百度分词原理 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一直想把自己整理的

想做到天衣無縫,就必須認(rèn)認(rèn)真真學(xué)會百度分詞技術(shù),當(dāng)然這些分詞技術(shù)是王施帆個(gè)人推測分析出來的,百度自己的科研技術(shù)是不可能公開的,畢竟競爭對手那么多,都掌握了,市場也亂了不是?下面這些推測,肯定不是隨隨便便想出來的,是通過數(shù)據(jù)分析的,這點(diǎn),請各位放心。

百度分詞的4個(gè)原理:

1、基于理解:傻瓜式匹配,小于等于3個(gè)中文字符百度是不進(jìn)行切詞的,比如搜索“大學(xué)堂”。

2、基于統(tǒng)計(jì):百度把一個(gè)詞標(biāo)紅的原因:標(biāo)紅的詞一般是一個(gè)關(guān)鍵詞,你搜索“學(xué)”字的時(shí)候,百度它自認(rèn)的把“學(xué)習(xí)”也當(dāng)成了一個(gè)關(guān)鍵詞,所以出現(xiàn)“學(xué)習(xí)”這個(gè)詞標(biāo)紅,這就是百度分詞法:基于統(tǒng)計(jì)分詞。

3、基于字符串匹配(百度的分詞法:正向最大切詞法)

最大與最小(最大匹配:一直匹配到?jīng)]詞可配;最小匹配:匹配出詞了就停止匹配,再從另一個(gè)詞開始匹配)比如:百度搜索“湖南大學(xué)堂屋頂”,百度的一個(gè)分詞算法我們把它當(dāng)成一個(gè)黑盒子,我們通過一些輸入關(guān)鍵詞,根據(jù)百度的輸出結(jié)果來判定百度的分詞算法。正向與反向(正向:從前往后配;反向:從后往前配)(湖南大學(xué)堂屋頂)正向分法:湖南大學(xué) 堂屋 頂 (劉強(qiáng)大地方法)正向分法:劉 強(qiáng)大 地方 法。反向分法:方法 大地 劉 強(qiáng)。而在這個(gè)詞語當(dāng)中“大地”不是一個(gè)詞。百度分詞技術(shù)

4、基于專有詞庫。比如杰出人物(如:)明星(如:劉德華)檢索量大的詞(如:買票難) 。

分詞工具(沒有百度的,要是有,就會出現(xiàn)問題,收集了幾個(gè)開源的分詞工具,詳細(xì)內(nèi)容后續(xù)補(bǔ)充):

1、ICTCLAS – 全球最受歡迎的漢語分詞系統(tǒng)

2、HTTPCWS – 基于HTTP協(xié)議的開源中文分詞系統(tǒng)

3、SCWS – 簡易中文分詞系統(tǒng)

4、PhpanAlysis - PHP無組件分詞系統(tǒng)

5 、MMSEG4J

6、盤古分詞

7、IKAnalyzer 開源的輕量級中文分詞工具包

中文分詞API(百度不提供該服務(wù)):

新浪SAE平臺上提供的分詞功能

官網(wǎng)說明:,SAE分詞系統(tǒng)基于隱馬模型開發(fā)出的漢語分析系統(tǒng),主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、新詞識別。

調(diào)用規(guī)則:?key=simon&wd={語句}

百度分詞的一些猜測:

1. 判斷用戶提交字符串,如果為多個(gè)字符串,則通過空格,標(biāo)點(diǎn)符號,等進(jìn)行切割。

2. 判斷提交字符串中有無字母或者數(shù)字,如果有把字母與數(shù)字當(dāng)作獨(dú)立整體,并把這個(gè)整體當(dāng)作切割負(fù),進(jìn)行前后切割。

3. 判斷切割后的詞組有無重復(fù)詞,有當(dāng)作一個(gè)計(jì)算。

4. 如果提交為一個(gè)字符串,判斷字符串字?jǐn)?shù),大于4并等于4個(gè)字的進(jìn)行切割,如果小于4個(gè)字不進(jìn)行任何處理。

5. 對照特殊詞庫表進(jìn)行提取,如果字符串中包含特殊詞進(jìn)行單獨(dú)提取。

6. 進(jìn)行正向分詞處理。

7. 進(jìn)行反向分詞處理。

8. 正向分詞結(jié)果與反向分詞結(jié)果進(jìn)行對比,如果結(jié)果一樣,直接輸出。

9. 如果結(jié)果不一樣,輸出最短路徑(詞數(shù)最少的)進(jìn)行輸出。

10. 如果長度一樣進(jìn)行則輸出單子最少的結(jié)果。

11. 如果單子最少結(jié)果一樣,則輸出正向分詞結(jié)果。

針對百度索引提示,糾錯(cuò)原理。

1.判讀詞組,1個(gè)字的詞不進(jìn)行提示,大于1個(gè)字開啟提示功能。

1.進(jìn)行同音字提示,如果詞數(shù)過多,提取用戶搜索最多詞組進(jìn)行提示。

除以上外,我們還需要注意一點(diǎn),那就是現(xiàn)在分詞中進(jìn)行了語意相關(guān)結(jié)合:

舉個(gè)例子我們常常在搜索某些詞的時(shí)候會發(fā)現(xiàn)有些結(jié)果中并不是完全匹配的詞也進(jìn)行了飄紅。百度分詞技術(shù)其實(shí)這種情況就是語意結(jié)合。我們可以理解為百度把相關(guān)詞表進(jìn)行了關(guān)聯(lián),或者干脆進(jìn)行了表結(jié)合。造成了這種情況的出現(xiàn)。

比如我們搜索太原,我們會發(fā)現(xiàn)太原與太原市都進(jìn)行了飄紅。

百度分詞的幾個(gè)精彩例子:

本文來自電腦雜談,轉(zhuǎn)載請注明本文網(wǎng)址:

http://www.pc-fly.com/a/jisuanjixue/article-37624-1.html

總結(jié)

以上是生活随笔為你收集整理的php盘古分词,百度分词技术_百度输入法分词怎么关_百度分词原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。