日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

中科院分词系统大致流程

發(fā)布時(shí)間:2023/12/10 windows 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中科院分词系统大致流程 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
轉(zhuǎn)載自:http://fay19880111-yeah-net.iteye.com/blog/1464110 ????? ???? ictalas4j用到的字典主要是下面的三個(gè):coreDict、biGramDict、nr。coreDict記錄了6768個(gè)詞塊,里面有對(duì)應(yīng)的詞頻和句柄(用于詞性標(biāo)注);biGramDict里面記錄的是詞和詞之間的關(guān)系,也就是相鄰兩個(gè)詞一起出現(xiàn)的頻率;nr記錄的是中文人名角色標(biāo)注,該標(biāo)注來自對(duì)人民日?qǐng)?bào)語料庫訓(xùn)練的結(jié)果。?
???? 了解了其應(yīng)用的字典后,看一下ictclas4j的大致流程。? ?????? ???? 首先,把整片文檔分割成一個(gè)個(gè)的句子,對(duì)分割后的句子進(jìn)行原子切割。? ???? 其次,查找coreDict字典進(jìn)行粗略的分詞,所有可能的分詞結(jié)果都存儲(chǔ)在一個(gè)二維鏈表里面。該二位鏈表的每個(gè)節(jié)點(diǎn)中記錄了詞性(可能包含多個(gè))、詞內(nèi)容、詞頻。? ???? 然后,查找biGramDict字典,對(duì)第二部的結(jié)果處理,構(gòu)造新的二維鏈表,該二維鏈表的節(jié)點(diǎn)中記錄了兩個(gè)詞之間的關(guān)系值(權(quán)重,衡量倆個(gè)詞同時(shí)出現(xiàn)的概率),通過一個(gè)計(jì)算公式,計(jì)算出兩個(gè)詞的平滑值。? ???? 接著,進(jìn)行初次切分(通過最短路徑算法,而權(quán)重即為上一步計(jì)算出的平滑值)。? ???? 接著,進(jìn)行人名識(shí)別了,這應(yīng)該算是ictclas4j不同于其他分詞工具的特征吧,其他的分詞工具基本上不處理未登錄詞,但是未登錄詞對(duì)分詞的結(jié)果影響還是比較大的。該部分采用的是基于角色標(biāo)注的算法,通過查找nr字典,最終匹配出人名。(本文只是介紹大致流程,具體的人名識(shí)別請(qǐng)閱讀 張華平、劉群的論文《基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究》)。? ???? 接著,處理地點(diǎn)等信息(個(gè)人感覺ictclas在處理地點(diǎn)信息時(shí)識(shí)別率不高,主要是其特征不像人名識(shí)別那樣緊緊有15中模式匹配模型,分詞在切分時(shí)并不能準(zhǔn)備的切分出機(jī)構(gòu)名稱)。? ???? 最后就是優(yōu)化優(yōu)化結(jié)果,添加詞性(對(duì)于詞性,前面已經(jīng)包含相應(yīng)的值,在調(diào)整相應(yīng)的分詞后調(diào)整對(duì)應(yīng)的詞性即可)。? ???

總結(jié)

以上是生活随笔為你收集整理的中科院分词系统大致流程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。