日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

中科院分词系统整理笔记

發(fā)布時(shí)間:2023/12/10 windows 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中科院分词系统整理笔记 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

NLPIR簡介

?????? 一套專門針對原始文本集進(jìn)行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。可以使用該軟件對自己的數(shù)據(jù)進(jìn)行處理。

??????? NLPIR分詞系統(tǒng)前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng),從2009年開始,為了和以前工作進(jìn)行大的區(qū)隔,并推廣NLPIR自然語言處理與信息檢索共享平臺,調(diào)整命名為NLPIR分詞系統(tǒng),增加了十一項(xiàng)功能。

??????? NLPIR 系統(tǒng)支持多種編碼(GBK 編碼、UTF8 編碼、BIG5 編碼)、多種操作系統(tǒng)(Windows, Linux, FreeBSD 等所有主流操作系統(tǒng))、多種開發(fā)語言與平臺(包括:C/C++/C#,Java,Python,Hadoop 等)。

新增功能

?????? 全文精準(zhǔn)檢索-JZSearch:支持多數(shù)據(jù)類型、多字段、多語言;

??????? 新詞發(fā)現(xiàn):挖掘新詞列表

??????? 分詞標(biāo)注:對原始語料進(jìn)行分詞、自動(dòng)識別人名地名機(jī)構(gòu)名等未登錄詞、新詞標(biāo)注以及詞性標(biāo)注。并可在分析過程中,導(dǎo)入用戶定義的詞典。

??????? 統(tǒng)計(jì)分析與術(shù)語翻譯:一元詞頻統(tǒng)計(jì)、二元詞語轉(zhuǎn)移概率統(tǒng)計(jì),并且可以針對常用的術(shù)語,會(huì)自動(dòng)給出相應(yīng)的英文解釋。

???????大數(shù)據(jù)聚類及熱點(diǎn)分析-Cluster:自動(dòng)分析出熱點(diǎn)事件,并提供事件話題的關(guān)鍵特征描述。

???????大數(shù)據(jù)分類過濾:從海量文檔中篩選出符合需求的樣本。

???????自動(dòng)摘要-Summary:能夠?qū)纹蚨嗥恼?#xff0c;自動(dòng)提煉出內(nèi)容的精華,方便用戶快速瀏覽文本內(nèi)容。

?????? 關(guān)鍵詞提取-KeyExtract:能夠?qū)纹恼禄蛭恼录?#xff0c;提取出若干個(gè)代表文章中心思想的詞匯或短語,可用于精化閱讀、語義查詢和快速匹配等

???????文檔去重-RedupRemover:能夠快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄,同時(shí)找出所有的重復(fù)記錄。

???????HTML正文提取-HTMLPaser:自動(dòng)剔除導(dǎo)航性質(zhì)的網(wǎng)頁,剔除網(wǎng)頁中的HTML標(biāo)簽和導(dǎo)航、廣告等干擾性文字,返回有價(jià)值的正文內(nèi)容。適用于大規(guī)模互聯(lián)網(wǎng)信息的預(yù)處理和分析。

??????編碼自動(dòng)識別與轉(zhuǎn)換:自動(dòng)識別文檔內(nèi)容的編碼,并進(jìn)行自動(dòng)轉(zhuǎn)換,目前支持Unicode/BIG5/UTF-8等編碼自動(dòng)轉(zhuǎn)換為簡體的GBK,同時(shí)將繁體BIG5和繁體GBK進(jìn)行繁簡轉(zhuǎn)化。

相關(guān)技術(shù)

1.網(wǎng)絡(luò)信息實(shí)時(shí)采集與正文提取

NLPIR大數(shù)據(jù)搜索與挖掘演示平臺根據(jù)新浪rss摘要,利用NLPIR的精準(zhǔn)網(wǎng)絡(luò)采集系統(tǒng)實(shí)時(shí)抓取新浪最新的新聞(每次刷新均會(huì)重新抓取),NLPIR正文提取系統(tǒng)將網(wǎng)頁中的導(dǎo)航、廣告等內(nèi)容去除,利用網(wǎng)絡(luò)文本鏈接密度作為主要參數(shù),采用深度神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)文本正文內(nèi)容的自動(dòng)提取。這里,也可由用戶人工隨意輸入任意的文章。

2.基于層疊隱馬模型的分詞標(biāo)注

NLPIR/ICTCLAS分詞系統(tǒng),采用層疊隱馬模型(算法細(xì)節(jié)請參照:張華平,高凱,黃河燕,趙燕平,《大數(shù)據(jù)搜索與挖掘》科學(xué)出版社。2014.5?ISBN:978-7-03-040318-6),分詞準(zhǔn)確率接近98.23%,具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢。它能夠真正理解中文,利用機(jī)器學(xué)習(xí)解決歧義切分與詞性標(biāo)注歧義問題。張博士先后傾力打造十余年,內(nèi)核升級10次,全球用戶突破30萬。

3.基于角色標(biāo)注的實(shí)體抽取

NLPIR實(shí)體抽取系統(tǒng)能夠智能識別文本中出現(xiàn)的人名、地名、機(jī)構(gòu)名、媒體、作者、及文章的主題關(guān)鍵詞,所提煉出的詞語不需要在詞典庫中事先存在,是對語言規(guī)律的深入理解和預(yù)測NLPIR實(shí)體抽取系統(tǒng)采用基于角色標(biāo)注算法自動(dòng)識別命名實(shí)體(算法細(xì)節(jié)請參照:張華平,高凱,黃河燕,趙燕平《大數(shù)據(jù)搜索與挖掘》科學(xué)出版社2014.5ISBN:978-7-03-040318-6),可在此基礎(chǔ)上搭建各種多樣化的大數(shù)據(jù)挖掘應(yīng)用。

4.基于完美雙數(shù)組TRIE樹的詞頻統(tǒng)計(jì)

NLPIR的詞頻統(tǒng)計(jì)算法的效率較高,采用了我們的完美雙數(shù)組TRIE樹的專利算法(近期有進(jìn)一步的優(yōu)化),是常規(guī)算法速度的十倍以上,該算法的效率不會(huì)隨著待統(tǒng)計(jì)結(jié)果數(shù)目的劇增而指數(shù)級增長,一般是亞線性增長。建議大家調(diào)用NLPIR/ICTCLAS開放的詞頻統(tǒng)計(jì)接口。

5。基于深度機(jī)器學(xué)習(xí)的文本分類

NLPIR采用了深度神經(jīng)網(wǎng)絡(luò)對分類體系進(jìn)行了綜合訓(xùn)練,目前訓(xùn)練的類別只是廠家的政治、經(jīng)濟(jì)、軍事等。我們內(nèi)置的算法支持類別自定義訓(xùn)練,該算法對常規(guī)文本的分類準(zhǔn)確率較高,綜合開放測試的F值接近86%NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多應(yīng)用。此外還可以實(shí)現(xiàn)文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應(yīng)用于品牌報(bào)道監(jiān)測、垃圾信息屏蔽、敏感信息審查等領(lǐng)域。

6。基于深度神經(jīng)網(wǎng)絡(luò)的文本情感分析

NLPIR情感分析提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。情感分析主要采用了兩種技術(shù):1.情感詞的自動(dòng)識別與權(quán)重自動(dòng)計(jì)算,利用共現(xiàn)關(guān)系,采用Bootstrapping的策略,反復(fù)迭代,生成新的情感詞及權(quán)重;2.情感判別的深度神經(jīng)網(wǎng)絡(luò):基于深度神經(jīng)網(wǎng)絡(luò)對情感詞進(jìn)行擴(kuò)展計(jì)算,綜合為最終的結(jié)果。

7。基于上下文條件熵的關(guān)鍵詞提取

NLPIR關(guān)鍵詞提取能夠在全面把握文章的中心思想的基礎(chǔ)上,提取出若干個(gè)代表文章語義內(nèi)容的詞匯或短語,相關(guān)結(jié)果可用于精化閱讀、語義查詢和快速匹配等。NLPIR主要采用交叉信息熵計(jì)算每個(gè)候選詞的上下文條件熵,所處理的文檔不受行業(yè)領(lǐng)域限制,且能夠識別出最新出現(xiàn)的新詞語,所輸出的詞語可以配以權(quán)重。

8.基于POS-CBOWword2vec語義擴(kuò)展

POS-CBOW方法綜合了詞性、詞的分布特點(diǎn),采用word2vector改進(jìn)模型,對5GB的新聞?wù)Z料進(jìn)行訓(xùn)練,自動(dòng)提取出了語義關(guān)聯(lián)關(guān)系。如果訓(xùn)練文本調(diào)整為專業(yè)領(lǐng)域的生語料,該模型同樣可以產(chǎn)生專業(yè)領(lǐng)域的本體關(guān)聯(lián)關(guān)系。

9.基于全局結(jié)構(gòu)預(yù)測模型的轉(zhuǎn)移依存句法分析

NLPIR提出使用Yamada算法的結(jié)構(gòu)化轉(zhuǎn)移依存句法分析模型,在Yamada算法的基礎(chǔ)上,加入全局的訓(xùn)練以及預(yù)測,優(yōu)化了特征集合。該模型的精度85.5%)接近于目前轉(zhuǎn)移依存句法最好結(jié)果(86.0%),并且在所有精度85%以上的依存句法模型中,達(dá)到了最快的分析速度。

10.簡繁轉(zhuǎn)化

NLPIR根據(jù)中文簡繁詞庫,對照抽取互譯。

11.基于隱馬模型的自動(dòng)注音

NLPIR可根據(jù)詞庫,基于語意理解,對字詞自動(dòng)進(jìn)行語音標(biāo)注。準(zhǔn)確率99%

12.基于關(guān)鍵詞提取的自動(dòng)摘要

自動(dòng)文本摘要中間件能夠?qū)崿F(xiàn)文本內(nèi)容的精簡提煉,從長篇文章中自動(dòng)提取關(guān)鍵句和關(guān)鍵段落,構(gòu)成摘要內(nèi)容,方便用戶快速瀏覽文本內(nèi)容,提高工作效率。

自動(dòng)摘要中間件不僅可以針對一篇文檔生成連貫流程的摘要,還能夠?qū)⒕哂邢嗤黝}的多篇文檔去除冗余、并生成一篇簡明扼要的摘要;用戶可以自由設(shè)定摘要的長度、百分比等參數(shù);處理速度達(dá)到每秒鐘20篇。

下載地址

??????? NLPIR的下載地址:http://ictclas.nlpir.org/downloads

????????GitHub的地址:https://github.com/NLPIR-team/NLPIR

導(dǎo)入工程

官網(wǎng)版:

(1)新建一個(gè)工程導(dǎo)入sample下java工程目錄JnaTest_NLPIR,導(dǎo)入后的情形如下:

???????????????????

(2)code目錄下的NlpirTest.java文件就可以測試。

???????? 有兩個(gè)地方需要配置參數(shù)值:

???????? 第一:加載庫文件

???????

???????? 第二:初始化時(shí)需要的參數(shù)

??????????????

?????????? “XXXX”為解壓后的包路徑。

Github上下載的代碼:

(1)找到NLPIR SDK目錄的NLPIR-ICTCLAS導(dǎo)入工程,結(jié)果如下:

?????? ??????

(2)使用nlpir下的NlpirTest.java進(jìn)行測試。

???????? 注意:這個(gè)文件是單元測試,只需要在要測試的方法上右擊,選擇“JUint Test”即可;

??????????????????? 可能會(huì)有l(wèi)icense問題,將License文件夾下的所有.user文件抽出來放到Dada目錄下即可。


至此,兩種方式都可以跑起來了。



總結(jié)

以上是生活随笔為你收集整理的中科院分词系统整理笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。