日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

solr 中文分词器IKAnalyzer和拼音分词器pinyin

發(fā)布時(shí)間:2024/4/14 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 solr 中文分词器IKAnalyzer和拼音分词器pinyin 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

solr分詞過程:

Solr Admin中,選擇Analysis,在FieldType中,選擇text_en

左邊框輸入 “冬天到了天氣冷了小明不想上學(xué)去了”,點(diǎn)擊右邊的按鈕,發(fā)現(xiàn)對每個(gè)字都進(jìn)行分詞。這不符合中國人的習(xí)慣。

solr6.3.0自帶中文分詞包,在 \solr-6.3.0\contrib\analysis-extras\lucene-libs\lucene-analyzers-smartcn-6.3.0.jar,但是不能自定義詞庫

好在我們有IKAnalyzer(已無人更新,目前版本是2012)和pinyin分詞插件。

IKAnalyzer安裝

IKAnalyzer下載地址:https://github.com/EugenePig/ik-analyzer-solr5

因?yàn)樵嫉腎KAnalyzer已經(jīng)不支持solr5以后的版本,這里是修改過后的

用git clone到本地或者直接下載zip到本地,然后執(zhí)行mvn clean instal(Java8),或者mvn clean -Djavac.src.version=1.7 -Djavac.target.version=1.7 install(jdk1.7)

執(zhí)行完,在項(xiàng)目 /target 目錄下,看到j(luò)ar文件

將改jar文件copy到 solr目錄:\solr-6.3.0\server\solr-webapp\webapp\WEB-INF\lib

然后修改core的配置文件:\solr-6.3.0\server\solr\test\conf\managed-schema

添加如下配置:

<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" /></analyzer><analyzer type="query"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" /></analyzer> </fieldType>

或者

<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>

保存重啟solr,到選擇test核心-Analysis,進(jìn)入分詞頁面,輸入“冬天到了天氣冷了小明不想上學(xué)去了”,FieldType選擇“text_cn”,點(diǎn)擊Analyse Value按鈕:

看到已經(jīng)分詞中文成功了。

pinyin安裝

pinyin下載地址:http://files.cnblogs.com/files/wander1129/pinyin.zip

?下載后將2個(gè)jar文件copy到\solr-6.3.0\server\solr-webapp\webapp\WEB-INF\lib目錄下,

然后修改core的配置文件:\solr-6.3.0\server\solr\test\conf\managed-schema,添加:

<!-- 配置拼音分詞 pinyin--><fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0"><analyzer type="index"><tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/><filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /><filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /></analyzer><analyzer type="query"><tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/><filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /><filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /></analyzer></fieldType>

重啟solr

到選擇test核心-Analysis,進(jìn)入分詞頁面,輸入“冬天到了天氣冷了小明不想上學(xué)去了”,FieldType選擇“text_pinyin”,點(diǎn)擊Analyse Value按鈕:

?

看到漢字轉(zhuǎn)成拼音了。

轉(zhuǎn)載于:https://www.cnblogs.com/yangzhenlong/p/8254264.html

總結(jié)

以上是生活随笔為你收集整理的solr 中文分词器IKAnalyzer和拼音分词器pinyin的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。