Solr支持从富文本文件中,如pdf,word中抽取内容建立索引。
首先,需要配置支持这一功能的requestHandler。编辑solrconfig.xml
,加入:
content
Content-Type
ignored_
yyyy-MM-dd
solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包:solr-dataimporthandler-extras.jar到lib目录,并确认solrconfig.xml中的lib配置包含它。
ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的,
配置解释:
:其中name=update/extract
为改request的请求路径。fmap.xxx
为从文件中抽取的内容,定义这些内容如何存储。如在这里:
content
Content-Type
官方文档关于fmap
的描述:
意思很简单就是字段的映射。
-
uprefix
这个配置用于将文件中其它不需要的内容统一加上指定前缀,如这里加上了ignored_。在schema.xml中有该字段与类型配置:
这是个动态字段,即所有以ignored_
开头的字段都按ignored
这个type
处理。在这达到的忽略这些数据的目的。
调用/update/extract完成文件索引
调用/update/extrac的方式有很多种,下面介绍使用solr4j api在java工程里调用:
//建立客户端连接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
//单个文件索引
public void indexFromFile(String fileName,String id) throws Exception{
//ContentStreamUpdateRequest 是专门用来提交文件的
ContentStreamUpdateRequest request=new ContentStreamUpdateRequest("/update/extract");
String contentType="application/text";
request.addFile(new File(fileName), contentType);
//literal.xxx 文件以外的字段,xxx将直接映射到schema.xml中的同名字段
request.setParam("literal.id", String.valueOf(id));
request.setParam("literal.author", author);
request.setParam("literal.title", tilte);
request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);
client.request(request);
client.commit();
}
public static void main(String[] args) {
try{
SolrMananger client=new SolrMananger();
client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref");
}catch(Exception e){
e.printStackTrace();
}
}
运行后,查看solr控制台,使用query验证文件是否成功索引。
可以看到查询结果,且各个字段的值都与预想一样。
关于批量文件生成索引,需要注意性能问题,应做到:
原文:http://my.oschina.net/u/1403753/blog/468439
-
client.commit();
操作应该放在最外层,即最后提交一次。 - 不设置action。
- 一个文件一个ContentStreamUpdateRequest对象,否则会造成contentStream递增,从而影响效率。
代码如下:
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
ContentStreamUpdateRequest request;
for(File file:files){
request=new ContentStreamUpdateRequest("/update/extract");
request.addFile(new File("mailing_lists.pdf"));
request.setParam("literal.id", "mailing_lists.pdf");
//request.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);//注释这行代码。
client.request(request);
}
client.commit();
schemal.xml:
id