在一些博文中已经描述过如何索引二进制文件,即为Word文件、PDF文件和 LibreOffice文档创建索引。在此,利用数据导入处理程序(Data Import Handler)实现同样的功能。不久前 Solr 服务器发布了新的版本(3.1),本文内容就基于此新版本加以描述。本文值目的是给出应用样例 - 所有变更以此样例应用为准。
我们假设数据是可用的XML格式,并包含文档基本信息,以及定位文档的文件名,文件位于一定义的目录下。示例文件如下:
<?xml version="1.0" encoding="utf-8"?> <albums> <album> <author>John F.</author> <title>Life in picture</title> <description>1.jpg</description> </album> <album> <author>Peter Z.</author> <title>Simple presentation</title> <description>2.pptx</description> </album> </abums>
如上所示,文件数据由单个元素构成,并无唯一标识符,但可以处理(此类数据)。
首先修改(XML)模式,增加一字段,用以保存文件内容:
<field name="content" type="text" indexed="true" stored="true" multiValued="true"/>
接着,修改solrconfig.xml,补充DIH 配置:
<requestHandler name="/dataimport"> <lst name="defaults"> <str name="config">data-config.xml</str> </lst> </requestHandler>
由于将使用额外定位的实体处理器(TikaEntityProcessor),所以需要修改加载DIH库的(配置)行:
<dataConfig> <script><![CDATA[ id = 1; function GenerateId(row) { row.put('id', (id ++).toFixed()); return row; } ]]></script> <dataSource type="BinURLDataSource" name="data"/> <dataSource type="URLDataSource" baseUrl="http://localhost/tmp/bin/" name="main"/> <document> <entity name="rec" processor="XPathEntityProcessor" url="data.xml" forEach="/albums/album" dataSource="main" transformer="script:GenerateId"> <field column="title" xpath="//title" /> <field column="description" xpath="//description" /> <entity processor="TikaEntityProcessor" url="http://localhost/tmp/bin/${rec.description}" dataSource="data"> <field column="text" name="content" /> <field column="Author" name="author" meta="true" /> <field column="title" name="title" meta="true" /> </entity> </entity> </document> </dataConfig>