日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

盘古分词 - 多元分词算法

發(fā)布時(shí)間:2023/12/29 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 盘古分词 - 多元分词算法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

中文分詞按照分詞粒度來分,分成 一元分詞,二元分詞,多元分詞和精確分詞等類型。一元分詞就是最簡單的分詞,將所有的中文字符按照單字形式輸出。二元分詞按雙字形式輸出。多元分詞則是將一句話中可能的單詞組合按照一定規(guī)則輸出,允許輸出的詞有重疊。精確分詞則是將一句話中最準(zhǔn)確的單詞組合輸出,不允許輸出的詞有重疊。當(dāng)然這里用精確這個(gè)詞來修飾只是為了與其他幾種分詞方法區(qū)分,不可能有完全精確的分詞方法,因?yàn)槲覀儌ゴ笞鎳恼Z言實(shí)在是博大精深,分詞本身缺乏標(biāo)準(zhǔn)(能否制定標(biāo)準(zhǔn)也是一個(gè)問號(hào))一些中文句子就是由人來分解也可能分出不同的結(jié)果,所以到目前為止還沒有100%精確的分詞方法。

由于一元和二元分詞較為簡單,其分詞的效果也不盡理想,這里不多討論。現(xiàn)在讓我們看看精確分詞。下面這句話:“許仙喝了口黃酒”,精確分詞由于不能包含重疊的詞,一般可以分成 許仙/喝了/口/黃酒,用這種分詞結(jié)果構(gòu)建索引,輸入黃酒,可以搜到,但輸入酒就無法搜到。而作為搜索用戶,往往需要既能搜到黃酒也能搜到酒,google, 百度等著名搜索引擎就可以達(dá)到這種效果。我們自己開發(fā)的搜索引擎如果無法實(shí)現(xiàn)這種功能,用戶體驗(yàn)就不會(huì)很好。為了解決這個(gè)問題,我們必須對(duì)中文句子進(jìn)行多元分解,即分解出合適的組合,比如上面的句子,如果分解為 許/仙/許仙/喝/了/口/黃/酒/黃酒/喝了口/ 那么無論我們輸入黃酒還是酒,我們都可以搜索到這條記錄。多元分詞的缺點(diǎn):多元分詞和搜索引擎結(jié)合可以得到較多的匹配結(jié)果,但同時(shí)也增加了索引文件的大小。另外由于將一些單詞進(jìn)行了拆分,搜索結(jié)果的排序會(huì)受到影響。比如搜索黃酒,多元分詞后搜索的關(guān)鍵字組合為 黃+酒+黃酒,很可能會(huì)將只包含黃或者酒的記錄排在包含黃酒的記錄前面,這不是我們希望的結(jié)果。對(duì)于搜索引擎來說這個(gè)排序是很重要的,google,百度就靠這個(gè)吃飯的,如果這樣瞎排,估計(jì)用戶早就把他們拋棄了。事實(shí)上,他們做的很好。為了解決這個(gè)問題,盤古分詞提出了兩個(gè)概念,一個(gè)是多元分詞的冗余度(Redundancy),一個(gè)是多元分詞結(jié)果的權(quán)重級(jí)別(Rank)。首先先談?wù)勅哂喽?#xff0c;對(duì)于一句話,可能會(huì)有很多種分詞組合,我們通過冗余度的設(shè)置可以控制這個(gè)組合的數(shù)量。 盤古分詞支持3級(jí)冗余。當(dāng)冗余度設(shè)置為0時(shí),只分解最佳的分詞組合,設(shè)置為1時(shí)次之,2時(shí)再次之。比如 “中華人民共和國” ,冗余度取0,1,2 時(shí) 分詞結(jié)果分別為中華人民共和國(0,5)/中華(0,3)/人民共和國(2,3)/中華人民(0,3)/共和國(4,3)/中華人民共和國(0,5)/中(0,2)/華(1,2)/人民共和國(2,2)/中華(0,2)/人民(2,2)/共和國(4,2)/中華人民(0,2)/共和(4,2)/國(6,2)/中華人民共和國(0,5)/其中挎號(hào)中第一個(gè)數(shù)字表示單詞在整個(gè)文章中的位置,第二個(gè)數(shù)字表示權(quán)重級(jí)別。下同。盤古分詞不同分詞方法的索引大小和分詞時(shí)間比較我們再談?wù)剻?quán)重。盤古分詞將多元分詞出來的單詞根據(jù)其詞長,詞的間隔以及未登錄詞的取舍等條件給定了不同的權(quán)重。最高權(quán)重為5,最低為0。由于Lucene.net 不支持根據(jù)權(quán)重建立索引(畢竟其不是為中文設(shè)計(jì)的),我們只能在搜索時(shí)對(duì)分解出來的關(guān)鍵字指定權(quán)重來影響搜索結(jié)果。比如黃酒這個(gè)詞,搜索關(guān)鍵詞分解為 黃酒/黃/酒 如果我們對(duì)黃酒指定較高的權(quán)重,對(duì)黃和酒指定較低的權(quán)重,那么包含黃酒的記錄將會(huì)優(yōu)先于只包含黃或者酒的記錄被搜索到,這樣就基本解決了搜索排序的問題。下面來看看搜索 “長春市長春藥店” 這個(gè)句子采用盤古分詞 + Lucene.net 2.0 的搜索結(jié)果和采用 google 和百度的搜索結(jié)果的比較。冗余度取1,搜索范圍限定在 博客園 網(wǎng)站內(nèi)。Google 的搜索結(jié)果 59 條符合條件的記錄 搜索關(guān)鍵字:長春市長春藥店 site:cnblogs.com

1.常用分詞算法的比較與設(shè)想- Alic的文件夾- 博客園

  • [ Translate this page ]
    長春市/長春/藥店(分成3個(gè)詞,都匹配到,語義正確) … 我們對(duì)“長春市長春藥店”進(jìn)行兩種方法的分詞,但是因?yàn)槟嫦蜃畲笃ヅ浞ǖ玫降摹按核幍辍钡脑~頻相比于其他詞語的 …
    www.cnblogs.com/alic/archive/2008/06/06/1215001.html - 26k - Cached - Similar pages
    2.KTDictSeg 一個(gè)C#.net做的簡單快速準(zhǔn)確的開源中文分詞組件- eaglet …

  • [ Translate this page ]
    “長春市長春藥店”可以依次拆分為長春、長春市、市長、長春、春藥、春藥店、藥店這幾個(gè)詞, … “長春市長春藥店”按正向最大匹配掃描順序可以出現(xiàn)如下匹配的單詞組合: …
    www.cnblogs.com/eaglet/archive/2007/05/24/758833.html - 144k - Cached - Similar pages
    3.KTDictSeg 一個(gè)C#.net做的簡單快速準(zhǔn)確的開源中文分詞組件- eaglet …

  • [ Translate this page ]
    以“長春市長春節(jié)致詞”和“長春市長春藥店”這個(gè)兩個(gè)句子為例:. “長春市長春節(jié)致詞”可以依次拆 … “長春市長春藥店”按正向最大匹配掃描順序可以出現(xiàn)如下匹配的單詞組合: …
    www.cnblogs.com/eaglet/archive/2007/06/02/758833.html - 145k - Cached - Similar pages
    4.漢語轉(zhuǎn)拼音(帶音調(diào)和多音字識(shí)別) - 草屋主人的blog - 博客園

  • [ Translate this page ]
    由結(jié)果看,是分成了“長春市”“長”了如果是“長春市長大”和“長春市長治久安”,分的就 … 另外,一般我們都會(huì)說“長春市市長”,“北京市市長”,少一個(gè)市雖然也能理解,但總 …
    www.cnblogs.com/sunli/archive/2007/11/21/967294.html - 78k - Cached - Similar pages
    5.最新評(píng)論- 草屋主人的blog - 博客園

  • [ Translate this page ]
    “長春市長”試了下,確實(shí)不對(duì)這個(gè)跟分詞有關(guān)吧? 由結(jié)果看,是分成了“長春市”“長”了如果是“長春市長大”和“長春市長治久安”,分的就對(duì)的看來分詞還要做上下文分析_
    www.cnblogs.com/sunli/RecentComments.html - 44k - Cached - Similar pages
    6.中文分詞組件KTDictSeg 1.2 版本發(fā)布及算法簡介- eaglet - 博客園

  • [ Translate this page ]
    長春市長春節(jié)致詞 長春市長春藥店 IBM的技術(shù)和服務(wù)都不錯(cuò) … 市長 157 2 春節(jié) 159 2 致詞 161 2 -1 1 9 1 長春市 155 3 長春 158 2 藥店 170 2 …
    www.cnblogs.com/eaglet/archive/2007/06/02/768856.html - 118k - Cached - Similar pages
    7.搜索引擎中中文詞組分詞的實(shí)現(xiàn)- 旋風(fēng)- 博客園

  • [ Translate this page ]
    ps:"杭州市長春藥店"你分完詞后會(huì)是什么呢??. #3樓 [樓主] 回復(fù) 引用 查看. 2007-04 -16 16:12 by xuanfeng. 第一步:把,”杭州市長“ ”杭州市“ “春藥店” 添加到詞庫中 …
    www.cnblogs.com/xuanfeng/archive/2007/04/15/714312.html - 83k - Cached - Similar pages
    8.博客園- Clark Zheng發(fā)表的評(píng)論

  • [ Translate this page ]
    ps:"杭州市長春藥店"你分完詞后會(huì)是什么呢??. Clark Zheng 發(fā)表于2007-4-16 11:42. re: C#基礎(chǔ)概念二十五問. @森林?jǐn)U展或修改繼承的方法、屬性、索引器或事件的抽象 …
    www.cnblogs.com/CommentsByAuthor.aspx?author=Clark+Zheng&page=31 - 27k - Cached - Similar pages
    9.博客園- xuanfeng發(fā)表的評(píng)論

  • [ Translate this page ]
    不好意思,是“長春藥店”而不是“春藥店”! xuanfeng 發(fā)表于2007-4-16 18:39. re: 搜索引擎中中文詞組分詞的實(shí)現(xiàn). 第一步:把,”杭州市長“ ”杭州市“ “春藥店” 添加到詞庫 …
    www.cnblogs.com/CommentsByAuthor.aspx?author=xuanfeng&page=2 - 27k - Cached - Similar pages
    10.我的評(píng)論- 旋風(fēng)- 博客園

  • [ Translate this page ]
    不好意思,是“長春藥店”而不是“春藥店”! re: 搜索引擎中中文詞組分詞的實(shí)現(xiàn) xuanfeng 2007-04-16 16:12. 第一步:把,”杭州市長“ ”杭州市“ “春藥店” 添加到詞庫中 …
    www.cnblogs.com/xuanfeng/MyComments.html - 49k - Cached - Similar pages

    百度 的搜索結(jié)果 4 條符合條件的記錄 搜索關(guān)鍵字:site:(cnblogs.com) 長春市長春藥店

常用分詞算法的比較與設(shè)想 - Alic的文件夾 - 博客園
長春市長春節(jié)致辭 2) 長春市長春藥店 我們假使詞庫中包含如下詞語“長春”,“長春市”,“市長”,“春節(jié)”,“致辭…我們對(duì)“長春市長春藥店”進(jìn)行兩種方法的分詞,但是因?yàn)槟嫦蜃畲笃ヅ浞ǖ玫降摹按核幍辍钡脑~頻相比于其他詞語的詞頻要…
www.cnblogs.com/alic/articles/1215001.html 33K 2008-9-4 - 百度快照

KTDictSeg 一個(gè)C#.net做的簡單快速準(zhǔn)確的開源中文分詞組件 - eagl…
以“長春市長春節(jié)致詞”和“長春市長春藥店”這個(gè)兩個(gè)句子為例: “長春市長春節(jié)致詞”可以依次拆分為 長春、長春市…“長春市長春藥店”可以依次拆分為長春、長春市、市長、長春、春藥、春藥店、藥店 這幾個(gè)詞,按照正向最大匹配算法,…
www.cnblogs.com/eaglet/archive/2007/05/24 … 125K 2008-9-15 - 百度快照

中文分詞組件 KTDictSeg 1.2 版本發(fā)布及算法簡介 - eaglet - 博客…
長春市長春節(jié)致詞 長春市長春藥店 IBM的技術(shù)和服務(wù)都不錯(cuò) 張三在一月份工作會(huì)議上說的確實(shí)在理 于北京時(shí)間5月10日舉行運(yùn)動(dòng)會(huì) 我的和服務(wù)必在明天做好 KTDictSeg 0 9 9 1 簡介10 2 : 12 1 13 1 KTDictSeg 14 9 23 1 是24 1…
www.cnblogs.com/eaglet/articles/768856.html 119K 2008-9-2 - 百度快照

博客園 - 劍飄紅發(fā)表的評(píng)論
長春市長春節(jié)致詞 長春市長春藥店 IBM的技術(shù)和服務(wù)都不錯(cuò) 張三在一月份工作會(huì)議上說的確實(shí)在理 于北京時(shí)間5月10日舉行運(yùn)動(dòng)會(huì) 我的和服務(wù)必在明天做好 KTDictSeg 0 9 9 1 簡介10 2 : 12 1 13 1 KTDictSeg 14 9 23 1 是24 1…
www.cnblogs.com/CommentsByAuthor.aspx?aut … 35K 2008-9-3 - 百度快照

KTDictSeg 1.4 版本 + Lucene.net 2.0 的搜索結(jié)果 376 條符合條件的記錄

常用分詞算法的比較與設(shè)想- Alic的文件夾- 博客園
,語義錯(cuò)誤) 長春市/長春/藥店(分成3個(gè)詞,都匹配到,語義正確) 用逆向最大匹配法得到的結(jié)果是: 長春/市長/春節(jié)/致辭(分成4個(gè)詞,都匹配到,語義正確) 長春/市長/春藥店(分成3個(gè)詞,都
http://www.cnblogs.com/alic/archive/2008/06/06/1215001.html

KTDictSeg 一個(gè)C#.net做的簡單快速準(zhǔn)確的開源中文分詞組件- eaglet …
詞結(jié)果是長春市/長/春節(jié)/致詞,按照反向最大匹配算法,分詞結(jié)果是長春/市長/春節(jié)/致詞。 “長春市長春藥店”可以依次拆分為長春、長春市、市長、長春、春藥、春藥店、藥店 這幾個(gè)
http://www.cnblogs.com/eaglet/archive/2007/05/24/758833.html

我的評(píng)論- 旋風(fēng)- 博客園
sp; 第一步:把,”杭州市長“ ”杭州市“ “春藥店” 添加到詞庫中 后效果為:杭州市長/杭州市/杭州/杭/州/市長/市/長/春藥店/春藥/春/藥店/藥/店 采用的是模糊分詞分保證每個(gè)詞語
http://www.cnblogs.com/xuanfeng/MyComments.html

博客園- Clark Zheng發(fā)表的評(píng)論
分詞的實(shí)現(xiàn) 連著三個(gè)if+goto,為什么不用switch呢?ps:"杭州市長春藥店"你分完詞后會(huì)是什么呢?? Clark Zheng 發(fā)表于 2007-4
http://www.cnblogs.com/CommentsByAuthor.aspx?author=Clark+Zheng&page=31

搜索引擎中中文詞組分詞的實(shí)現(xiàn)- 旋風(fēng)- 博客園
第一步:把,”杭州市長“ ”杭州市“ “春藥店” 添加到詞庫中 后效果為:杭州市長/杭州市/杭州/杭/州/市長/市/長/春藥店/春藥/春/藥店/藥/店 采用的是模糊分詞分保證每個(gè)詞語
http://www.cnblogs.com/xuanfeng/archive/2007/04/15/714312.html

中文分詞組件KTDictSeg 1.2 版本發(fā)布及算法簡介- eaglet - 博客園
9 1 長春 155 2 市長 157 2 春節(jié) 159 2 致詞 161 2 -1 1 9 1 長春市 155 3 長春 158 2 藥店 170
http://www.cnblogs.com/eaglet/archive/2007/06/02/768856.html

最新評(píng)論- 草屋主人的blog - 博客園
菌哥 長春市市長 re: 漢語轉(zhuǎn)拼音(帶音調(diào)和多音字識(shí)別) jason_lb 2007-11-21 16:26 “長春市長”試了
http://www.cnblogs.com/sunli/RecentComments.html

漢語轉(zhuǎn)拼音(帶音調(diào)和多音字識(shí)別) - 草屋主人的blog - 博客園
“長春市長”試了下,確實(shí)不對(duì)這個(gè)跟分詞有關(guān)吧?由結(jié)果看,是分成了“長春市”“長”了如果是“長春市長大”和“長春市長治久安”,分的就對(duì)的看來分詞還要做上下文分
http://www.cnblogs.com/sunli/archive/2007/11/21/967294.html

前門新大街8月7日正式開街亮相- 歲月無聲- 博客園
店都還空著沒開張,就一些老字號(hào)開張了,包括”大北照相館、慶林春茶莊、億兆百貨、都一處燒麥館、一條龍羊肉館、長春堂藥店、中國書店、南區(qū)郵局、月盛齋醬牛羊肉館、張一元茶莊分社、尚珍閣工藝品店
http://www.cnblogs.com/joe235/archive/2008/08/29/1263334.html

博客園- 560889223發(fā)表的評(píng)論
re: 我完成的C#關(guān)于在lucene下的中文切詞 長春市|長春節(jié) 長春市長|春節(jié) 560889223 發(fā)表于 2007-9-26 19:57
http://www.cnblogs.com/CommentsByAuthor.aspx?author=560889223&page=2

從搜索結(jié)果來看KTDictSeg 1.4 + Lucene.net 2.0 的搜索效果已經(jīng)非常接近google的搜索效果,前10個(gè)記錄的選擇兩者基本上差不多,排序上略有區(qū)別。Baidu搜索出來的數(shù)據(jù)很少,可能其更追求搜索的精度吧,畢竟也是國內(nèi)搜索界的老大,這里不想做過多評(píng)論,好不好按百度自己的話說還是拿事實(shí)說話吧。關(guān)于KTDictSeg 的多元分詞技術(shù),本文就介紹到這里。 KTDictSeg 1.4 版本還有最后的掃尾工作,不日即將發(fā)布。

總結(jié)

以上是生活随笔為你收集整理的盘古分词 - 多元分词算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。