Painless script在ElasticSearch 中的使用的一些问题
最近在准备ElasticSearch认证工程师的考试,其中Script是比较重要,也是比较难的部分。在这里做一下总结的,主要是自己在做真题时不确定的一些东西。
使用场景
Script使用场景比较多,在做真题的过程中,我遇到过下面一些场景:
- Ingress Pipeline中使用。
- reindex索引时使用。
- query时使用。
- 使用script产生一个新的field,加入到搜索出的文档中。
- 作为filter的内嵌函数。对结果进行过滤。
- 在function_score中使用,取代算分。
- search template中使用。
- update/update_by_query中使用。(7.x版本似乎这个功能有bug,做父子关联更新时,提示父子文档需要在同一个分片上,但是一共只有一个分片)
- 排序中使用。产生一个metric作为排序指标。
- 在filter中使用。
官网上还有一些其他的使用场景,比如在聚合中使用script,似乎一直没有在真题中见过。
Painless脚本语言
本文的主角painless脚本,是Java语言的一个子集,很多地方的用法和Java是类似的,但是也有一些不一样的地方。之前使用的时候,我一直当做Java在写,其实踩了不少坑。painless的主要API其实是在[painless API reference] > [Shard API]里面,官方文档的位置在https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-api-reference-shared.html。这个位置我也是写本文的时候才发现的。看了这部分文档,揭开了之前的一些疑惑。
比如说,把一个字符串按照空格分割成一个字符串数组,我之前使用java的split API来进行分解,ES报错找不到相关接口。后来在文档中发现painless的相关API是String[] splitOnToken(String)
。当然,正是因为这个,我有机会接触到了ingest pipeline中的grok以及splite processor。
其他比较多的一些用法有:
- 访问某个field
在painless里面,文档的field数据要么直接存储在ctx
中(ingest,reindex),要么存储在ctx
的成员ctx._source
中,这俩个对象,都是map类型的,在painless中可以有两种方法进行访问。以ctx._source
为例,假设有一个field叫做apple,我们可以使用ctx._source['apple']
或者ctx._source.apple
进行访问。
- 判断field是否存在
比如说,判断apple字段是否存在,我可以用if (ctx._source.apple == null)
进行判断。又因为ctx._source
是一个hashmap,我们也可以用map的相关API进行判断:if (ctx._source.containKey('apple'))
。
- 设置新field
上文曾经描述,可以使用ctx['key_name']
和ctx.key_name
这种方法来对hashmap的字段进行访问。这种方法统一可以用来设置新的值。
ctx['key_name'] = value;
ctx.key_name = value;
- String转换成int
可以使用Integer的函数parseInt来进行转换。比如说:
String num = '123';
int num_int = Integer.parseInt(num);
其实这个用法和Java是一样的,转换成其他数字类型也是一样的。
- 单值或者数组
这个场景其实我并没有在实际的题目中看到,但是这个场景我觉得是非常可能出现的,因为ES有个特性,当我们为某个字段做映射时,我们可以指定其类型,比如说,指定为text。在实际写入文档时,我们可以写入一个值,或者是多个值组成的数组。那么问题就来了,我怎样在painless脚本里处理这样的情况呢?我并没有机会知道,我获得的一个值是一个String还是一个ArrayList。那这种情况怎么处理呢?查看painless的关键字https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-keywords.html,可以发现,和Java一样,painless有关键字instanceof
。我们可以使用instanceof来对类型进行判断。
进行一个小实验,假设有一个index,其包含一个字段tags,tags可以是一个,也可以是多个。
PUT test1
{
"settings": {
"number_of_shards": 1,
"number_of_replicas": 0
},
"mappings": {
"properties": {
"tags": {
"type": "keyword"
}
}
}
}
POST test1/_bulk
{"index": {"_id": 1}}
{"tags": "cat"}
{"index": {"_id": 2}}
{"tags": ["cat", "dog"]}
{"index": {"_id": 3}}
{"tags": ["cat", "dog", "tiger"]}
我们要将索引test1重新导入到索引test2中,并且增加一个字段将所有的tag拼接起来。tags字段现在可能是String,也可能是一个ArrayList。因此我们再写painless脚本时要注意识别tags的类型。
PUT _ingest/pipeline/join_tags
{
"description": "join_tags",
"processors": [
{
"script": {
"lang": "painless",
"source": """
ctx.tags_str = "";
if (ctx.tags instanceof ArrayList)
{
for (String tag: ctx.tags)
{
if (ctx.tags_str.length() > 0)
{
ctx.tags_str += " " + tag;
}
else
{
ctx.tags_str = tag;
}
}
}
else
{
ctx.tags_str = ctx.tags
}
"""
}
}
]
}
好了,现在可以用_reindex来将test1导入到test2中了。
POST _reindex
{
"source": {
"index": "test1"
},
"dest": {
"index": "test2",
"pipeline": "join_tags"
}
}
顺便提一句,_reindex里面也可以直接写script,但是就像上面提到的,处理父子关系时会出问题。
小结
上面就是我这几天做题遇到的一些场景,当时做的时候,其实还遇到不少其他情况,不过现在记得不是很清楚了。等我后面想起来再做补充吧。