solr7创建提取pdf,word内容创建索引

在使用solr可能会需要使用solr来索引文件,如txt,xml,json,word,xlsx,pdf格式的文件。

solr可以读取文件夹中的文件,并为文件的内容创建索引。
这里使用tika来读取文件。
在(solr目录)\example\example-DIH\solr\tika\conf中,可以使用tika-data-config.xml的配置文件为模板配置,并将配置文件放在core下面的conf文件夹下:

    
    
        
            
            
                
                
                
                
                
            
        
    
在entity file下面还可以添加field:


 
其中字段‘file’表示文件的名称,字段'fileAbsolutePath'是文件的绝对路径,字段'fileSize'是文件的大小,字段'fileLastModified'是文件的最近修改的时间。在文件的内容部分可以有文档的作者,内容文本,以及标题。在solrconfig.xml中导入配置文件:

    
        这里输入文件名
    
另外还需要在managed-schema文件中修改字段






 
在这里text使用的是'text_hmm_chinese'这个是使用lucene自带的中文分词器,需要在配置分词器,配置字段类型:

    
        
    
    
        
    
这里的配置文件就可以了,另外在将jar包引入,启动tomcat就可以使用了。

你可能感兴趣的:(solr)