Solr快速入门第五讲——配置中文分析器

在上一讲中,我向大家详细地介绍了Solr中的managed-schema配置文件,其实,主要是介绍了该配置文件中的五个标签。你只有了解了这五个标签的含义,才能晓得如何配置中文分析器,这里咱就使用IK-analyzer中文分析器。

如何配置中文分析器呢?

好了,问题来了,如何配置IK-analyzer中文分析器呢?你可按照下面四步来配置。

  • 第一步:把ik-analyzer-7.6.0.jar添加到solr/WEB-INF/lib目录下,如下图所示。
    Solr快速入门第五讲——配置中文分析器_第1张图片
  • 第二步:把IK-analyzer的配置文件、扩展词典和停用词词典添加到solr工程的classpath目录下,也就是工程的WEB-INF/classes目录下。一般来说,咱都是借助IDE开发工具(例如Eclipse)来开发一个工程的,开发好一个工程之后,要将其部署到Tomcat服务器上去运行。此时,工程的src目录就对应于部署在Tomcat服务器上的工程的WEB-INF/classes目录(若该目录没有则自己创建)。
    Solr快速入门第五讲——配置中文分析器_第2张图片
    将IK-analyzer的配置文件、扩展词典和停用词词典添加到solr工程的classpath目录下之后,效果就应该是如下图所示那样。
    Solr快速入门第五讲——配置中文分析器_第3张图片
    至于他们三里面的内容,这里我就不列出来了,相信大家都知道。不过,有一点需要我们特别注意,扩展词典和停用词词典这两个文件的字符集一定要保证是UTF-8字符集,而且还要是无BOM的UTF-8编码,严禁使用Windows的记事本编辑。 之前咱们在编辑这两个文件的时候,使用的是Eclipse开发工具,恰好Eclipse开发工具是以UTF-8无BOM格式来编辑的,所以不会有任何问题。因此,如果我们平时使用Notepad++编辑器来编辑该文件,那么一定要改成以UTF-8无BOM格式来进行编辑,这样才能生效。
    Solr快速入门第五讲——配置中文分析器_第4张图片
    这里主要是告诉大家手动编辑时,一定要注意格式的问题!
  • 第三步:首先在managed-schema配置文件中添加一个自定义的fieldType(所取的名字跟原先已存在的不要冲突就行),使用IK-analyzer中文分析器。
    Solr快速入门第五讲——配置中文分析器_第5张图片
    然后在managed-schema配置文件中定义若干field,并指定field的type属性为text_ik。
    Solr快速入门第五讲——配置中文分析器_第6张图片
  • 第四步:重启Tomcat服务器。

测试配置好的中文分析器

配置好IK-analyzer中文分析器之后,咱们现在来测试一下。重启Tomcat服务器后,进入Solr的后台管理界面,接着,你就可以按照下图所示的内容来测试了。
Solr快速入门第五讲——配置中文分析器_第7张图片
上图充分验证了名为title_ik和content_ik的这两个field默认使用的就是配置好的IK-analyzer中文分析器。

你可能感兴趣的:(Lucene与Solr)