solr4配置中文分词器

一共3个步骤

添加分词jar包

在schemal.xml文件中,注册分词器类型的fieldType

然后在schemal.xml中的field 中引用一下就OK了

 

下面开始

修改schema.xml,让solr能够支持中文的分词。添加如下内容:

solr4配置中文分词器_第1张图片

 -------------------------------华丽的分割线------------------------------------

<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
      <!-- 此处需要配置主要的分词类 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
        <!--
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.LowerCaseFilterFactory"/>
        -->
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        <filter class="solr.SmartChineseWordTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
      <!-- 此处配置同上 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
        <!--
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        -->
        <filter class="solr.SmartChineseWordTokenFilterFactory"/>
      </analyzer>
</fieldType>

最后在引用一下字段类型就可以了,注意这是新增加了一个field字段,字段类型是刚添加的text_smart

<field name="new_field " type="text_smart" indexed="true" stored="true" multiValued="true"/>  

重启solr服务。

solr4配置中文分词器_第2张图片

 

----

 

你可能感兴趣的:(中文分词器)