DOC和PDF一样索引文件 - Solr 和 Tika 整合

阅读更多

在一些博文中已经描述过如何索引二进制文件,即为Word文件、PDF文件和 LibreOffice文档创建索引。在此,利用数据导入处理程序(Data Import Handler)实现同样的功能。不久前 Solr 服务器发布了新的版本(3.1),本文内容就基于此新版本加以描述。本文值目的是给出应用样例 - 所有变更以此样例应用为准。

假设

 我们假设数据是可用的XML格式,并包含文档基本信息,以及定位文档的文件名,文件位于一定义的目录下。示例文件如下:



    
        John F.
        Life in picture
        1.jpg
    
    
        Peter Z.
        Simple presentation
        2.pptx
    

如上所示,文件数据由单个元素构成,并无唯一标识符,但可以处理(此类数据)。

首先修改(XML)模式,增加一字段,用以保存文件内容:

接着,修改solrconfig.xml,补充DIH 配置:


   
      data-config.xml
   

由于将使用额外定位的实体处理器(TikaEntityProcessor),所以需要修改加载DIH库的(配置)行:


    
   
    
    
        
            
            
            
                
                
                
            
        
    

生成记录标识符 - 脚本

第一个有趣的特点是使用标准ScriptTransformer生成文档标识符。用javascript “GenerateId”方法和一个对它的引用( transformer=“script:GenerateId”) ,每条记录将被编号。坦率地说,这不是太好的处理缺乏标识符的方法,因为它不允许增量索引(我们无法区分各种版本的记录) - 用在这里只是显示修改记录多么容易。如果你不喜欢Javascript,您可以使用Java6支持的任何脚本语言。

使用多个数据源

另一个有趣的因素是多个数据源的使用。由于元数据由XML文件提供,需要下载这个文件;使用标准方法:定义 UrlDataSource,然后用 XpathEntityProcessor 分析传入的数据。既然要下载每个记录的二进制附件,定义了一个额外的数据源: BinURLDataSource和其他实体,使用 TikaEntityProcessor;现在只需要通知实体在哪里下载文件( url 属性引用该实体-父)和使用那个数据源的提示( dataSource属性);辅以一被索引的字段列表(附加的 meta 属性是指从文件元数据中检索的数据)。

可用字段

Apache  Tika 允许您下载许多来自文件的其他数据。上例中只用了 文档的标题(title)、作者(author)和内容(content)。有关可用字段的完整的信息都包含在由Metadata类实现的接口中(http://tika.apache.org/0.9/api/org/apache/tika/metadata/Metadata.html)-- 其中定义的常量。特别有趣的是 DublinCoreMSOFFICE

结论

启动Solr不久后将运行导入过程(调用地址:http://localhost:8983/solr/dataimport?command=full-import),文件将被索引,发送下列查询到Solr后,可见查询结果: http://localhost:8983/solr/select?q=*:*  。
【原文】 http://java.dzone.com/news/indexing-files-doc-pdf-%E2%80%93-solr

你可能感兴趣的:(lucene,solr,Tika)