日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

分词技术

發(fā)布時間:2023/12/20 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 分词技术 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
分詞

分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵詞串進(jìn)行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。當(dāng)然,我們在進(jìn)行數(shù)據(jù)挖掘、精準(zhǔn)推薦和自然語言處理工作中也會經(jīng)常用到中文分詞技術(shù)。


詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此中文是一定要分詞的。而且nlp的基礎(chǔ)任務(wù)中,關(guān)鍵詞抽取,詞性標(biāo)注,命名實體識別,語法分析,句法分析等等都默認(rèn)了詞是基本單位。

中文分詞技術(shù)的分類

第一類方法應(yīng)用詞典匹配、漢語詞法或其它漢語語言知識進(jìn)行分詞,如:正向最大匹配法、逆向最大匹配法、最小匹配方法等。這類方法簡單、分詞效率較高,但漢語語言現(xiàn)象復(fù)雜豐富,詞典的完備性、規(guī)則的一致性等問題使其難以適應(yīng)開放的大規(guī)模文本的分詞處理(比如未登錄詞)。

第二類基于統(tǒng)計的分詞方法則基于字和詞的統(tǒng)計信息,如把相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞,由于這些信息是通過調(diào)查真實語料而取得的,因而基于統(tǒng)計的分詞方法具有較好的實用性。

第三類基于字標(biāo)注的分詞方法實際上是構(gòu)詞方法。即把分詞過程視為字在字串中的標(biāo)注問題。由于每個字在構(gòu)造一個特定的詞語時都占據(jù)著一個確定的構(gòu)詞位置(即詞位),假如規(guī)定每個字最多只有四個構(gòu)詞位置:即B(詞首),M (詞中),E(詞尾)和S(單獨成詞),那么下面句子(甲)的分詞結(jié)果就可以直接表示成如(乙)所示的逐字標(biāo)注形式:

(甲)分詞結(jié)果:/上海/計劃/N/本/世紀(jì)/末/實現(xiàn)/人均/國內(nèi)/生產(chǎn)/總值/五千美元/。

(乙)字標(biāo)注形式:上/B海/E計/B劃/E N/S 本/s世/B 紀(jì)/E 末/S 實/B 現(xiàn)/E 人/B 均/E 國/B 內(nèi)/E生/B產(chǎn)/E總/B值/E 五/B千/M 美/M 元/E 。/S

常用的分詞組件

Jieba (C++, Java, python)https://github.com/fxsjy/jieba
HanLP (Java)https://github.com/hankcs/HanLP
FudanNLP (Java)https://github.com/FudanNLP/fnlp
LTP (C++, Java, python)https://github.com/HIT-SCIR/ltp

總結(jié)

以上是生活随笔為你收集整理的分词技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。