Painless script在ElasticSearch 中的使用的一些问题

最近在准备ElasticSearch认证工程师的考试，其中Script是比较重要，也是比较难的部分。在这里做一下总结的，主要是自己在做真题时不确定的一些东西。

使用场景

Script使用场景比较多，在做真题的过程中，我遇到过下面一些场景：

Ingress Pipeline中使用。
reindex索引时使用。
query时使用。
- 使用script产生一个新的field，加入到搜索出的文档中。
- 作为filter的内嵌函数。对结果进行过滤。
- 在function_score中使用，取代算分。
search template中使用。
update/update_by_query中使用。（7.x版本似乎这个功能有bug，做父子关联更新时，提示父子文档需要在同一个分片上，但是一共只有一个分片）
排序中使用。产生一个metric作为排序指标。
在filter中使用。

官网上还有一些其他的使用场景，比如在聚合中使用script，似乎一直没有在真题中见过。

Painless脚本语言

本文的主角painless脚本，是Java语言的一个子集，很多地方的用法和Java是类似的，但是也有一些不一样的地方。之前使用的时候，我一直当做Java在写，其实踩了不少坑。painless的主要API其实是在[painless API reference] > [Shard API]里面，官方文档的位置在https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-api-reference-shared.html。这个位置我也是写本文的时候才发现的。看了这部分文档，揭开了之前的一些疑惑。

比如说，把一个字符串按照空格分割成一个字符串数组，我之前使用java的split API来进行分解，ES报错找不到相关接口。后来在文档中发现painless的相关API是String[] splitOnToken(String)。当然，正是因为这个，我有机会接触到了ingest pipeline中的grok以及splite processor。

其他比较多的一些用法有：

访问某个field

在painless里面，文档的field数据要么直接存储在ctx中（ingest，reindex），要么存储在ctx的成员ctx._source中，这俩个对象，都是map类型的，在painless中可以有两种方法进行访问。以ctx._source为例，假设有一个field叫做apple，我们可以使用ctx._source['apple']或者ctx._source.apple进行访问。

判断field是否存在

比如说，判断apple字段是否存在，我可以用if (ctx._source.apple == null)进行判断。又因为ctx._source是一个hashmap，我们也可以用map的相关API进行判断：if (ctx._source.containKey('apple'))。

设置新field

上文曾经描述，可以使用ctx['key_name']和ctx.key_name这种方法来对hashmap的字段进行访问。这种方法统一可以用来设置新的值。

ctx['key_name'] = value;
ctx.key_name = value;

String转换成int

可以使用Integer的函数parseInt来进行转换。比如说：

String num = '123';
int num_int = Integer.parseInt(num);

其实这个用法和Java是一样的，转换成其他数字类型也是一样的。

单值或者数组

这个场景其实我并没有在实际的题目中看到，但是这个场景我觉得是非常可能出现的，因为ES有个特性，当我们为某个字段做映射时，我们可以指定其类型，比如说，指定为text。在实际写入文档时，我们可以写入一个值，或者是多个值组成的数组。那么问题就来了，我怎样在painless脚本里处理这样的情况呢？我并没有机会知道，我获得的一个值是一个String还是一个ArrayList。那这种情况怎么处理呢？查看painless的关键字https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-keywords.html，可以发现，和Java一样，painless有关键字instanceof。我们可以使用instanceof来对类型进行判断。

进行一个小实验，假设有一个index，其包含一个字段tags，tags可以是一个，也可以是多个。

PUT test1
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0
  },
  "mappings": {
    "properties": {
      "tags": {
        "type": "keyword"
      }
    }
  }
}

POST test1/_bulk
{"index": {"_id": 1}}
{"tags": "cat"}
{"index": {"_id": 2}}
{"tags": ["cat", "dog"]}
{"index": {"_id": 3}}
{"tags": ["cat", "dog", "tiger"]}

我们要将索引test1重新导入到索引test2中，并且增加一个字段将所有的tag拼接起来。tags字段现在可能是String，也可能是一个ArrayList。因此我们再写painless脚本时要注意识别tags的类型。

PUT _ingest/pipeline/join_tags
{
  "description": "join_tags",
  "processors": [
    {
      "script": {
        "lang": "painless",
        "source": """
        ctx.tags_str = "";
        if (ctx.tags instanceof ArrayList)
        {
          for (String tag: ctx.tags)
          {
            if (ctx.tags_str.length() > 0)
            {
              ctx.tags_str += " " + tag;
            }
            else
            {
              ctx.tags_str = tag;
            }
          }
        }
        else
        {
          ctx.tags_str = ctx.tags
        }
        """
      }
    }
  ]
}

好了，现在可以用_reindex来将test1导入到test2中了。

POST _reindex
{
  "source": {
    "index": "test1"
  },
  "dest": {
    "index": "test2",
    "pipeline": "join_tags"
  }
}

顺便提一句，_reindex里面也可以直接写script，但是就像上面提到的，处理父子关系时会出问题。

小结

上面就是我这几天做题遇到的一些场景，当时做的时候，其实还遇到不少其他情况，不过现在记得不是很清楚了。等我后面想起来再做补充吧。

Painless script在ElasticSearch 中的使用的一些问题

Painless script在ElasticSearch 中的使用的一些问题

使用场景

Painless脚本语言

小结

你可能感兴趣的:(Painless script在ElasticSearch 中的使用的一些问题)