跟益达学Solr5之使用Tika从PDF中提取数据导入索引

阅读更多

         开始此篇之前,我假定你已经学会了如何在Tomcat下部署Solr5啦。即启动Tomcat后你能看到Solr5的Web UI界面。OK,下面直接进入正题。

         首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包,当然你也可以直接到依赖的jar包扔到Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第1张图片
 
 

这里我采用了另外一种方式,把依赖的jar包放当前core的lib目录下,这样做的好处是每个core依赖的jar包都存放在各自core的子目录下分类存放,更方便管理,全部扔tomcat下杂乱无章不好管理。如图新建lib目录:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第2张图片
 然后往lib目录copy一些 DIH依赖的jar包,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第3张图片
 

 截图的那些jar包在solr5的解压包里都能找到,如果你实在找不到再来问我。然后solrconfig.xml配置文件里我们需要配置外部jar包的加载路径,如图配置:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第4张图片
 dir参数里的./即表示当前core根目录,regex表示一个正则表达式,目的就是为了批量指定j加载哪些jar包.然后配置我们的dataimport处理器并指定data-config.xml配置文件的加载路径,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第5张图片
 然后编写配置我们的data-config.xml,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第6张图片
url="C:/docs/solr-word.pdf"即表示对C:\docs目录下的solr-word.pdf文件进行文本提取并创建索引,format表示把提取到的文本当作什么类型的数据,默认支持text(纯文本),xml,json,html等格式,不配置format默认值就是text.

    然后我们需要在schema.xml文件里定义我们的域,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第7张图片
 细心的你,肯定发现了我配置了IK分词器,IK分词器配置如图:

 刚才我已经在core根目录的lib下复制了IK分词器jar包,我们还需要在core\conf目录下复制一份IKAnalyzer.cfg.xml配置文件,如果你有自定义IK扩展字典,那么你还需要把扩展字典文件的加载路径配置在IKAnalyzer.cfg.xml文件里,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第8张图片
 然后我们需要在C:/docs目录下放一个PDF文件进行测试,
solr-word.pdf这个测试PDF文件在solr5的解压目录下可以找到,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第9张图片
 
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第10张图片
 到此,准备工作就完成了,重启你的tomcat,访问你的Solr Web UI进行测试,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第11张图片
 如果你执行后看到如图效果,就表明PDF导入Solr成功了,为了验证PDF成功导入Solr了,你可以切换到Query菜单进行查询验证,如图:
跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第12张图片
    OK,关于如果导入PDF到Solr5就介绍到这儿了。相关配置文件我待会儿会在底下的附件里打包上传一份供你们参考,但希望你们还是要自己动手操作下,不要仅仅是直接解压复制我提供的示例,只有于遇到问题并不断自虐的过程中你才能学到经验。(注意:由于jar包体积太大,ITeye无法上传,所以lib目录下的jar我没法上传,所以如果你找不到jar包,请联系我)

      间隔很久没写了,让大家等久了,不好意思哈,写博客不易,大家且看且珍惜,也希望大家多多提意见,时间匆忙,难免会有所纰漏。

      如果你还有什么问题请加我Q-Q:7-3-6-0-3-1-3-0-5,

或者加裙
一起交流学习!

      

 

    

 

 

  

 

 

 

     

     

         

  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第13张图片
  • 大小: 27.7 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第14张图片
  • 大小: 82.6 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第15张图片
  • 大小: 29.1 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第16张图片
  • 大小: 9.9 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第17张图片
  • 大小: 20.8 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第18张图片
  • 大小: 67.4 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第19张图片
  • 大小: 7 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第20张图片
  • 大小: 30.8 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第21张图片
  • 大小: 22.2 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第22张图片
  • 大小: 85.4 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第23张图片
  • 大小: 64.5 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第24张图片
  • 大小: 85.3 KB
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第25张图片
  • 大小: 48.4 KB
  • solr_home.rar (260.9 KB)
  • 下载次数: 241
  • 跟益达学Solr5之使用Tika从PDF中提取数据导入索引_第26张图片
  • 大小: 58.8 KB
  • 查看图片附件

你可能感兴趣的:(Solr,Tika,PDF)