solr系列--导入文件

 

dataimporthandler插件导入pdf
从PDF文件中提取文本进行索引
 首先依然是在solrconfig.xml配置文件中配置dataimport请求处理器,并指定data-config.xml配置文件加载路径:
 
     
      data-config.xml  
   
 
 


  指定依赖的jar包加载路径:
 


如果该路径没有jar,到dist复制jar包创建目录。
data-config.xml:
导入一个pdf:

   
   
                        url="/xxx.pdf" format="text">
               
               
               
       

   




批量导入pdf:
 
 
 










 


  baseDir表示获取这个文件夹下的文件,fileName支持使用正则表达式来过滤一些baseDir文件夹下你不想被索引的文件,processor是用来生成Entity的处理器,而不同Entity默认会生成不同的Field域。FileListEntityProcessor处理器会根据指定的文件夹生成多个Entity,且生成的Entity会包含fileAbsolutePath, fileSize, fileLastModified, fileName这几个域,recursive表示是否递归查找子目录下的文件,onError表示当出现异常时是否跳过这个条件不处理。


然后我们需要在schema.xml中定义域,
 
   
   


     
     
     
   
   
   
   


       
             
   
 
 

 

配置完毕,然后重启你的tomcat,执行索引导入

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(solr)