Painless script在ElasticSearch 中的使用的一些问题

Painless script在ElasticSearch 中的使用的一些问题

最近在准备ElasticSearch认证工程师的考试,其中Script是比较重要,也是比较难的部分。在这里做一下总结的,主要是自己在做真题时不确定的一些东西。

使用场景

Script使用场景比较多,在做真题的过程中,我遇到过下面一些场景:

  • Ingress Pipeline中使用。
  • reindex索引时使用。
  • query时使用。
    • 使用script产生一个新的field,加入到搜索出的文档中。
    • 作为filter的内嵌函数。对结果进行过滤。
    • 在function_score中使用,取代算分。
  • search template中使用。
  • update/update_by_query中使用。(7.x版本似乎这个功能有bug,做父子关联更新时,提示父子文档需要在同一个分片上,但是一共只有一个分片)
  • 排序中使用。产生一个metric作为排序指标。
  • 在filter中使用。

官网上还有一些其他的使用场景,比如在聚合中使用script,似乎一直没有在真题中见过。

Painless脚本语言

本文的主角painless脚本,是Java语言的一个子集,很多地方的用法和Java是类似的,但是也有一些不一样的地方。之前使用的时候,我一直当做Java在写,其实踩了不少坑。painless的主要API其实是在[painless API reference] > [Shard API]里面,官方文档的位置在https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-api-reference-shared.html。这个位置我也是写本文的时候才发现的。看了这部分文档,揭开了之前的一些疑惑。

比如说,把一个字符串按照空格分割成一个字符串数组,我之前使用java的split API来进行分解,ES报错找不到相关接口。后来在文档中发现painless的相关API是String[] splitOnToken(String)。当然,正是因为这个,我有机会接触到了ingest pipeline中的grok以及splite processor。

其他比较多的一些用法有:

  • 访问某个field

在painless里面,文档的field数据要么直接存储在ctx中(ingest,reindex),要么存储在ctx的成员ctx._source中,这俩个对象,都是map类型的,在painless中可以有两种方法进行访问。以ctx._source为例,假设有一个field叫做apple,我们可以使用ctx._source['apple']或者ctx._source.apple进行访问。

  • 判断field是否存在

比如说,判断apple字段是否存在,我可以用if (ctx._source.apple == null)进行判断。又因为ctx._source是一个hashmap,我们也可以用map的相关API进行判断:if (ctx._source.containKey('apple'))

  • 设置新field

上文曾经描述,可以使用ctx['key_name']ctx.key_name这种方法来对hashmap的字段进行访问。这种方法统一可以用来设置新的值。

ctx['key_name'] = value;
ctx.key_name = value; 
  • String转换成int

可以使用Integer的函数parseInt来进行转换。比如说:

String num = '123';
int num_int = Integer.parseInt(num);

其实这个用法和Java是一样的,转换成其他数字类型也是一样的。

  • 单值或者数组

这个场景其实我并没有在实际的题目中看到,但是这个场景我觉得是非常可能出现的,因为ES有个特性,当我们为某个字段做映射时,我们可以指定其类型,比如说,指定为text。在实际写入文档时,我们可以写入一个值,或者是多个值组成的数组。那么问题就来了,我怎样在painless脚本里处理这样的情况呢?我并没有机会知道,我获得的一个值是一个String还是一个ArrayList。那这种情况怎么处理呢?查看painless的关键字https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-keywords.html,可以发现,和Java一样,painless有关键字instanceof。我们可以使用instanceof来对类型进行判断。

进行一个小实验,假设有一个index,其包含一个字段tags,tags可以是一个,也可以是多个。

PUT test1
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0
  },
  "mappings": {
    "properties": {
      "tags": {
        "type": "keyword"
      }
    }
  }
}

POST test1/_bulk
{"index": {"_id": 1}}
{"tags": "cat"}
{"index": {"_id": 2}}
{"tags": ["cat", "dog"]}
{"index": {"_id": 3}}
{"tags": ["cat", "dog", "tiger"]}

我们要将索引test1重新导入到索引test2中,并且增加一个字段将所有的tag拼接起来。tags字段现在可能是String,也可能是一个ArrayList。因此我们再写painless脚本时要注意识别tags的类型。

PUT _ingest/pipeline/join_tags
{
  "description": "join_tags",
  "processors": [
    {
      "script": {
        "lang": "painless",
        "source": """
        ctx.tags_str = "";
        if (ctx.tags instanceof ArrayList)
        {
          for (String tag: ctx.tags)
          {
            if (ctx.tags_str.length() > 0)
            {
              ctx.tags_str += " " + tag;
            }
            else
            {
              ctx.tags_str = tag;
            }
          }
        }
        else
        {
          ctx.tags_str = ctx.tags
        }
        """
      }
    }
  ]
}

好了,现在可以用_reindex来将test1导入到test2中了。

POST _reindex
{
  "source": {
    "index": "test1"
  },
  "dest": {
    "index": "test2",
    "pipeline": "join_tags"
  }
}

顺便提一句,_reindex里面也可以直接写script,但是就像上面提到的,处理父子关系时会出问题。

小结

上面就是我这几天做题遇到的一些场景,当时做的时候,其实还遇到不少其他情况,不过现在记得不是很清楚了。等我后面想起来再做补充吧。

你可能感兴趣的:(Painless script在ElasticSearch 中的使用的一些问题)