elasticsearch7.0支持同义词和自定义分词(从数据库热加载)

      最近项目上需要使用ES的同义词和自定义分词的功能,搞完了想写个总结,基本上和网上的解决方案差不多,还是抽点时间记录下(当然也还有很多别的方式实现,比如搭建一个远程服务器用来单独存储分词文件,然后通过请求服务器上的文件来实现热加载)。

1.数据库同义词表和自定义分词表

      首先需要在数据库创建两张表,假如我们就叫custom_dic(自定义分词表)和syn_dic(自定义分词表),这两张表里面都需要有一个字段存储分词,就用words这个字段存储,自定义分词存的是单个词语,同义词存的是用逗号分隔的有相同意思词语,其他字段的话可以根据自身项目需要进行增加,这里就不再细说。

2.插件开发

     (1)自定义分词需要使用ik分词器的插件

             首先在github上下载分词器对应插件版本的源码,我下载的是7.0.0,然后对源码进行改造,改造的方式很简单,在加载分词的地方,增加一个从数据库查询分词的方法,当然需要自己写原生的jdbc连接数据库的方式,网上搜下很多,改造完再重新打包成插件就可以了,最后直接解压放到ES的安装目录即可;后续会单独写一篇详细介绍改造ik分词器插件的内容。

     (2)同义词需要使用同义词的插件

           同义词插件改造的方式稍微复杂点,需要调整下索引的分词结构,其他的地方也几把差不多,从数据库加载数据啥的,这里也暂时不详细介绍,后面会单独介绍,我会提供改造好的插件压缩包 ,用得着的直接用就行;

3.插件安装

       插件的安装很简单,只需要把打包好的zip解压的ES安装目录下的plugin目录下即可;

    ik分词器:G:\elasticsearch-7.0.0\plugins\ik(将zip文件解压到以下ik文件夹下即可,解压之后zip文件删除);

elasticsearch7.0支持同义词和自定义分词(从数据库热加载)_第1张图片

    同义词: G:\elasticsearch-7.0.0\plugins\dynamic-synonym(将zip文件解压到以下dynamic-synonym目录即可,解压之后zip文件删除)

elasticsearch7.0支持同义词和自定义分词(从数据库热加载)_第2张图片

4.配置启动

      提供的插件包中需要连接数据,参数都是通过系统环境变量的方式获取的,所以启动ES的时候需要指定相关的参数:

(1)数据库类型驱动:jdbc.driver = com.mysql.jdbc.Driver

(2)数据库地址:jdbc.url=jdbc:mysql://xxxxxx

(3)数据库用户名:jdbc.user= username

(4)数据库密码:jdbc.password=password

(5)sql语句:

  加载同义词: jdbc.reload.synonym.sql=select word as words from syn_dic

  加载自定义分词: jdbc.reload.sql=select word from custom_dic

以上参数直接配置到ES的启动命令里面,作为环境变量加载到ES

本人是这样启动的:

window启动:修改elasticsearch.bat文件,在%JAVA% %ES_JAVA_OPTS% 后面增加命令

elasticsearch7.0支持同义词和自定义分词(从数据库热加载)_第3张图片

linux启动: 修改elasticsearch文件,在$ES_JAVA_OPTS后面增加命令,启动的时候使用nohup命令后台启动,否则参数好像不生效

elasticsearch7.0支持同义词和自定义分词(从数据库热加载)_第4张图片

5.数据索引相关处理: 

(1)新建索引时,在索引setting中增加自定义的分词器

"analysis": {
        "filter": {
          "synonym_custom": {
            "type": "dynamic_synonym",
            "synonyms_path": "fromDB",
            "tokenizer": "ik_max_word"
          }
        },
        "analyzer": {
          "ik_max_word_synonym": {
            "filter": "synonym_custom",
            "type": "custom",
            "tokenizer": "ik_max_word"
          }
        }
 }

(2)索引中的字段分词器选择使用自定义的

"desc1": {
            "type": "text",
            "store": true,
            "fields": {
              "desc1": {
                "type": "text",
                "store": true,
                "analyzer": "ik_max_word_synonym",
                "search_analyzer": "ik_smart"
              },
              "untouched": {
                "type": "keyword",
                "store": true
              }
            },
            "analyzer": "ik_max_word",
            "search_analyzer": "ik_smart"
          }

6.针对历史数据的索引处理

重要:查询时需要指定分词器为ik_max_word_synonym,否则会查不到

(1)让自定义分词生效

      调用9200端口的更新方法 updateByQuery("/"+indexName+"/_update_by_query?conflicts=proceed");

(2)让新增的同义词生效

a.如果原来的索引结构不同,那没别的办法,只能重建索引;

b.如果索引结构已经是符合条件的了,新增的分词没生效,那需要先close索引,然后再open索引

7.可能遇到的问题:

插件加载同义词或者自定义分词是通过数据库加载的,需要连接数据库,配置完启动可能会报错,还需要修改jdk运行环境的权限。

增加一行配置
permission java.net.SocketPermission "*", "connect,resolve";

elasticsearch7.0支持同义词和自定义分词(从数据库热加载)_第5张图片

你可能感兴趣的:(ELK)