Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍

分词器介绍

ES作为全文检索服务,势必要对原始的文本进行内容的拆分,才能进行有效的索引。而拆分原始内容到一个一个小的词,或语义单元,这部分的功能由ES的分词器去完成的。

常见分词器

standard:ES默认的分词器,会将词汇单元进行小写形式,并且去除一些停用词和标点符号等等。支持中文,采用的方法为单字切分。
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第1张图片
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第2张图片

simple:该分词器首先通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式。该分词器会去除掉数字类型的一些字符。

whitespace:仅仅是去除空格,然后对字符没有任何的小写化,并且该分词器不支持中文,而且它对生成的词汇单元没有作其他的一些标准化的处理。

language:特定语言的分词器,目前该分词器也是不支持中文的。

IK分词器的安装和使用

IK分词器是目前ES开源社区对于中文分词支持最好的第三方的插件。

首先,我们下载IK分词器插件。
IK分词器github地址为:
https://github.com/medcl/elasticsearch-analysis-ik
点击右下角releases
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第3张图片
然后找到ES对应的版本,点击Assets,然后点击下载zip包。
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第4张图片
下载完之后解压到elasticsearch-6.8.23\plugins\目录下
在这里插入图片描述
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第5张图片
然后重启ES,IK分词器才会生效。
IK分词器插件默认提供了两种分词器:
ik_smart
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第6张图片
ik_max_word
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第7张图片
那么,为什么IK分词器对于中文有如此本地化的理解呢,原因是IK分词器内置了很多字典。
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第8张图片
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第9张图片
如果某个词没被分词成功,则在字典里添加重启即可。
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第10张图片
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第11张图片
Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍_第12张图片

你可能感兴趣的:(Java项目,elasticsearch,java,搜索引擎)