架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库

文章目录

  • ik中文分词器
    • 1. 安装ik中文分词器(7.4.2版本)
    • 2. 使用ik中文分词器
      • 2.1 分词器: ik_max_word
      • 2.1 分词器: ik_smart
  • 自定义中文词库
    • 自定义词库, 导入字典

ik中文分词器

1. 安装ik中文分词器(7.4.2版本)

  1. 上传zip文件到我们的服务器

架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第1张图片
2. 解压并放在elasticsearch的plugins的ik文件夹下

  • yum install -y unzip zip 安装zip工具
  • unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/elasticsearch-7.4.2/plugins/ik
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第2张图片
  1. 进入ES的ik目录下
  • cd /usr/local/elasticsearch-7.4.2/plugins/ik
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第3张图片
  1. 重新启动ES
  • jps
  • kill ***
  • su esuser
  • cd /usr/local/elasticsearch-7.4.2/bin
  • ./elasticsearch -d
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第4张图片

2. 使用ik中文分词器

2.1 分词器: ik_max_word

此分词器会将文本进行最细粒度的拆分, 比如将"中华人民共和国国歌"
拆分为"中华人民共和国",“中华人民”,“中华”,“华人”,“人民共和国”,“人民”,“人”,“民”,“共和国”,“共和”,“和”,“国国”,“国歌”
架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第5张图片
架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第6张图片

2.1 分词器: ik_smart

此分词器会将文本进行最粗粒度的拆分.
架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第7张图片

架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第8张图片

自定义中文词库

在我们使用ik分词器的时候, 随着时代的发展, 难免出现时代流行词语而ik分词器不识别的问题, 如下, 骚年, 慕课网并不能作为一个词汇的问题:
架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第9张图片

自定义词库, 导入字典

  1. 关闭ES: jps, kill xxx
  2. 进入ik的config中配置
    cd /usr/local/elasticsearch-7.4.2/plugins/ik/config/
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第10张图片
  3. 切换到root, 编辑配置文件IKAnalyzer
    su root
    vim IKAnalyzer.cfg.xml
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第11张图片
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第12张图片
  4. 创建custom.dic文件 vim custom.dic
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第13张图片
  5. 切换会esuser用户, 启动ES
    su esuser
    cd /usr/local/elasticsearch-7.4.2/bin/
    ./elasticsearch -d
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第14张图片
    架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库_第15张图片

你可能感兴趣的:(You,Are,the,Architect,elasticsearch)