Solr-富文本索引

Solr支持从富文本文件中，如pdf,word中抽取内容建立索引。

首先，需要配置支持这一功能的requestHandler。编辑solrconfig.xml,加入：

   
    
      content
      Content-Type
      ignored_
    
    
      yyyy-MM-dd

solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包：solr-dataimporthandler-extras.jar到lib目录，并确认solrconfig.xml中的lib配置包含它。

ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的，

配置解释：

：其中name=update/extract为改request的请求路径。
fmap.xxx 为从文件中抽取的内容，定义这些内容如何存储。如在这里：

   content  
   Content-Type

官方文档关于fmap的描述：

意思很简单就是字段的映射。

uprefix 这个配置用于将文件中其它不需要的内容统一加上指定前缀，如这里加上了ignored_。在schema.xml中有该字段与类型配置：

这是个动态字段，即所有以ignored_开头的字段都按ignored这个type处理。在这达到的忽略这些数据的目的。

调用/update/extract完成文件索引

调用/update/extrac的方式有很多种，下面介绍使用solr4j api在java工程里调用：

//建立客户端连接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");

//单个文件索引
public void  indexFromFile(String fileName,String id) throws Exception{
        //ContentStreamUpdateRequest 是专门用来提交文件的
        ContentStreamUpdateRequest  request=new ContentStreamUpdateRequest("/update/extract");
        String contentType="application/text";
        
        request.addFile(new File(fileName), contentType);
       //literal.xxx 文件以外的字段，xxx将直接映射到schema.xml中的同名字段
        request.setParam("literal.id", String.valueOf(id));  
        request.setParam("literal.author", author);  
        request.setParam("literal.title", tilte);  

        request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);   
        client.request(request);
        
        client.commit();
        
    }

public static void main(String[] args)  {
        try{
        SolrMananger client=new SolrMananger();
        client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref");
        }catch(Exception e){
            e.printStackTrace();
        }
        }

运行后，查看solr控制台，使用query验证文件是否成功索引。

可以看到查询结果，且各个字段的值都与预想一样。

关于批量文件生成索引，需要注意性能问题，应做到：

原文：http://my.oschina.net/u/1403753/blog/468439

client.commit();操作应该放在最外层，即最后提交一次。
不设置action。
一个文件一个ContentStreamUpdateRequest对象，否则会造成contentStream递增，从而影响效率。

代码如下：

SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
ContentStreamUpdateRequest request;
for(File file:files){
    request=new ContentStreamUpdateRequest("/update/extract");
    request.addFile(new File("mailing_lists.pdf"));
    request.setParam("literal.id", "mailing_lists.pdf");
    //request.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);//注释这行代码。
    client.request(request);
} 
client.commit();

schemal.xml:

id

Solr-富文本索引

你可能感兴趣的:(Solr-富文本索引)