日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

solr从pdf、office文档中建立索引

發布時間:2024/9/27 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 solr从pdf、office文档中建立索引 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
2015年05月28日???hadoop???評論數 1

使用solrpdfoffice文檔中建立索引和從數據庫中建立相似,只不過這里需要tika來解析這些文檔。8.1?配置一個handler

這個handler首先要在solrConfig.xml中配置,如下所示:

? ?? ?
?

? ?? ???
?

<requestHandler name="/dataimport"? ? class="org.apache.solr.handler.dataimport.DataImportHandler">

? ?
?

? ? <lst? ? name="defaults">

? ?
?

? ?? ?<str? ? name="config">tika-data-config.xml</str>

? ?
?

? ?? ? </lst>

? ?
?

</requestHandler>

? ??
? ?
?

? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
?

這里和7.1幾乎一樣,只不過修改了配置文件名(當然也可以不修改)。

8.2?文檔配置tika-data-config.xml

? ???
?

? ?? ???
?

<dataConfig>??

? ?
?

? ?? ? <dataSource type="BinFileDataSource" />

? ?
?

? ?? ?? ???<document>

? ?
?

? ?? ?? ?? ?<entity? ? name="files" dataSource="binary"? ? rootEntity="false"

? ?
?

? ?? ?? ?? ?? ?processor="FileListEntityProcessor"

? ?
?

? ?? ?? ?? ?baseDir="D:/temp"? ? fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"

? ?
?

? ?? ?? ???
?

? ?
?

? ?? ?? ?? ?recursive="true">

? ?
?

? ?? ?? ?? ?? ? <field? ? column="fileAbsolutePath" name="id" />

? ?
?

? ?? ?? ?? ?? ? <field? ? column="fileSize" name="size" />

? ?
?

? ?? ?? ?? ?? ? <field? ? column="fileLastModified" name="lastModified" />

? ?
?

? ?? ?? ?? ?? ? <entity

? ?
?

? ?? ?? ?? ?? ?? ?? ???name="documentImport"

? ?
?

? ?? ?? ?? ?? ?? ?? ???processor="TikaEntityProcessor"

? ?
?

? ?? ?? ?? ?? ?? ?? ???url="${files.fileAbsolutePath}"

? ?
?

? ?? ?? ?? ?? ?? ?? ???format="text">

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="file" name="fileName"/>

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="Author" name="author" meta="true"/>

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="title" name="title" meta="true"/>

? ?
?

? ?? ?? ?? ?? ?? ???<field? ? column="text" name="text"/>

? ?
?

? ?? ?? ?? ?? ? </entity>

? ?
?

? ?? ?? ?? ?? ? </entity>

? ?
?

? ?? ?? ???</document>

? ?
?

</dataConfig>

? ??
? ?
?

? ??
?

這里只說上面(7.2)沒有說過的屬性。

·? ?? ???fileName?:(必選)使用正則表達式匹配文件

·? ?? ???baseDir?: (必選) 文件目錄

·? ?? ???recursive?: 是否遞歸的獲取文件,默認false

·? ?? ???rootEntity?:在這里必須是false(除非你只想索引文件名)。在默認情況下,document元素下就是根實體了,如果沒有根實體的話,直接在實體下面的實體將會被看做跟實體。對于根實體對應的數據庫中返回的數據的每一行,solr都將生成一個document

·? ?? ???dataSource?:如果你是用solr1.3,那就必須設為"null",因為它沒使用任何dataSourde。不需要在solr1.4中指定它,它只是意味著我們不創建一個dataSource實例。在大多數情況下,只有一個DataSource(JdbcDataSource),當使用FileListEntityProcessor 的時候DataSource不是必須的

·? ?? ???processor:只有當datasource不是RDBMS時才是必須的

·? ?? ???onError?:默認是"abort","skip"表示跳過當前文檔,"continue"表示對錯誤視而不見

更多精彩內容請關注:http://bbs.superwu.cn

總結

以上是生活随笔為你收集整理的solr从pdf、office文档中建立索引的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。