我们在项目中集成了ElasticSearch服务之后,需要对内容进行分词处理。这时候就需要用到分词器。其实ElasticSearch服务自身也会带有分词器。ElasticSearch服务自带的分词器是单个字进行分的。在我们的业务当中要求对整个词进行拆分。这时候就用到了ik分词器。ik分词器是词库分词的分词方式。当然根据我们的业务不同还可以选择其他的分词器。
Elasticsearch的IK分词器是一种流行的中文分词器,它有以下几个优势:
ik地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
解压并重命名为IK 将整个文件夹上传到es 中的 plugins 目录中
unzip elasticsearch-analysis-ik-7.6.1.zip
POST test002/_analyze?pretty=true
{
"text":"我们是软件工程师",
"tokenizer":"ik_max_word"
}
{
"tokens": [
{
"token": "我们",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "是",
"start_offset": 2,
"end_offset": 3,
"type": "CN_CHAR",
"position": 1
},
{
"token": "软件工程",
"start_offset": 3,
"end_offset": 7,
"type": "CN_WORD",
"position": 2
},
{
"token": "软件",
"start_offset": 3,
"end_offset": 5,
"type": "CN_WORD",
"position": 3
},
{
"token": "工程师",
"start_offset": 5,
"end_offset": 8,
"type": "CN_WORD",
"position": 4
},
{
"token": "工程",
"start_offset": 5,
"end_offset": 7,
"type": "CN_WORD",
"position": 5
},
{
"token": "师",
"start_offset": 7,
"end_offset": 8,
"type": "CN_CHAR",
"position": 6
}
]
}
POST test002/_analyze?pretty=true
{
"text":"我们是软件工程师",
"tokenizer":"ik_max_word"
}
这一次得到了分词的效果:
```json
{
"tokens": [
{
"token": "我们",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "是",
"start_offset": 2,
"end_offset": 3,
"type": "CN_CHAR",
"position": 1
},
{
"token": "软件",
"start_offset": 3,
"end_offset": 5,
"type": "CN_WORD",
"position": 2
},
{
"token": "工程师",
"start_offset": 5,
"end_offset": 8,
"type": "CN_WORD",
"position": 3
}
]
}
@Autowired
private RestHighLevelClient client;
public void test() throws IOException {
AnalyzeRequest analyzeRequest = AnalyzeRequest.withGlobalAnalyzer("ik_smart", "武梓龙来写CSDN博客来了");
AnalyzeResponse analyze = client.indices().analyze(analyzeRequest, RequestOptions.DEFAULT);
for (AnalyzeResponse.AnalyzeToken token : analyze.getTokens()) {
System.out.println(token.getTerm());
}
}
示例是将一段话进行分词操作,其中withGlobalAnalyzer方法的第一个参数是指定分词器ik_smart分词器(当然也可以使用其他分词器,根据业务的需求进行调整) 是es服务中安装了IK的插件实现的,如果不安装IK分词器的插件ik_smart分词器是无法使用的。第二个参数就是我们分词的内容了。
IK分词器在中文分词方面具有较好的准确性和性能,支持自定义词典和拼音分词,适用于各种中文搜索和分析场景。它是Elasticsearch中常用的中文分词器之一。