ElasticSearch中分词器(基于中文的分词器---IK)以及自定义中文分词器

首先登陆github使用IK分词器插件,这是一款基于ES开源的中文分词器插件,以下是github地址,如果以后有版本或者名称变动,请小伙伴自行去github搜索IK就可以看到。

地址:https://github.com/medcl/elasticsearch-analysis-ik

首先点击红色边框的选项,然后选择对应的版本,由于本人使用的ES版本是7.4.2,所以选择的插件也是对应的7.4.2版本,小伙伴们可以根据自己的ES版本自行选择。之后点击下载code。



下载以后可以根据提示进行安装:


安装成功以后务必重启ES,否则不生效!!!!!!!!

然后我们随意搜索一个中文,之前我们搜索英文的时候是使用"analyzer":"分词器",现在就可以按照插件文档进行操作。

分为ik_max_word以及ik_smart进行分词器输入,如文档所示ik_max_word会对文本进行最细粒度的拆分,而ik_smart会对文档进行最粗粒度的拆分。

下图为示例以ik_max_word为例,其余的小伙伴们可以自行测试:


下面是自定义配置中文分词器:


找到IKAnalyzer.cfg.xml文件中修改


之后:wq保存,然后vim custom.dic,这时候会自动创建这个文件并进入编辑模式。


之后凡是带有”骚年“的都不会进行拆分,直接划为一个单词。

你可能感兴趣的:(ElasticSearch中分词器(基于中文的分词器---IK)以及自定义中文分词器)