ZhaoYingChao88

ElasticSearch Aggregations使用总结详解

1.单字段情况下聚合

假设只需要对一个字段聚合，比如b字段，b字段是keyword类型，需要考虑的情况最为简单，当要对b字段聚合时语句很好写，如下即可

{
    "from": 0,
    "size": 0,
    "query": {
        "bool": {
            "must": [{
                "bool": {
                    "should": [{
                        "terms": {
                            "field_a": ["1", "2", "3"],
                            "boost": 1.0
                        }
                    }, {
                        "terms": {
                            "field_b": ["1", "2", "3"],
                            "boost": 1.0
                        }
                    }],
                    "adjust_pure_negative": true,
                    "minimum_should_match": "1",
                    "boost": 1.0
                }
            }],
            "adjust_pure_negative": true,
            "boost": 1.0
        }
    },
    "aggregations": {
        "my_agg": {
            "terms": {
                "field": "field_b"
            }
        }
    }
}

这是完整的query，后面的查询会省略掉query部分。query部分的用处也很明显：只把需要做聚合的部分过滤出来做聚合，我们需要统计的数据就在这部分中，而不是整个索引库。这样有两个好处：
1.提高效率，减少需要聚合的数据的数量
2.剔除需要考虑的意外情况，降低语句的复杂度
而聚合部分就非常简单了，仅仅对field_b聚合即可，但是很遗憾，离我们最终目标很远，这样只能统计出b字段的数据分布情况。

示例：

{
    "query": {
        "bool": {
            "must": [{
                    "terms": {
                        "track_type": ["31","32"]
                    }
                }
            ],
            "must_not": [],
            "should": []
        }
    },
    "from": 0,
    "size": 0,
    "sort": [],
    "aggs": {
        "obj_value": {
            "terms": {
                "field": "obj_value",
                "size": 100
            }
        }
    }
}

2.多字段情况的聚合

相对于上面的那种，接下来把另外一个字段也考虑进来看看。所以我们写下了这样的请求语句：

  "aggregations": {
    "my_agg1": {
      "terms": {
        "field": "tag_brand_id"
      }
    },
    "my_agg2": {
      "terms": {
        "field": "brand_cid_array"
      }
    }
  }

勉强的可以看到确实也是“统计了两个字段的情况”，但是是分开的，意味着要自己去解析返回结果并做计算来得到最终的返回结果。这确实是很令人恶心的事，那还有没有其他办法呢。但是观察语句的结构发现，似乎并没有过多可以更改的余地，所以需要寻求其他灵活的解决办法。

3.script agg的聚合

简单的单聚合无法表达出多字段聚合的需求，在谷歌过后我寻找到了这样一种解决方案：使用script，即脚本来描述我的需求。下面这段agg就是为了表达我想要根据我的需求灵活处理的一个方式：

  "aggregations": {
    "my_agg1": {
      "terms": {
        "script": " if (doc['field_a'].values.contains('1') || doc['field_b'].values.contains('1')){1};if (doc['field_a'].values.contains('2') || doc['field_b'].values.contains('2')){2};
if (doc['field_a'].values.contains('3') || doc['field_b'].values.contains('3')){3};"
      }
    }
  }

这一段脚本的作用很明显，就是告诉es：当a字段或者b字段包括1的时候，扔到桶1；当a字段或者b字段包括2的时候，扔到桶2；……以此类推。看上去确实似乎完全解决了开头提出来的问题，验证后效率还能接受，不是特别慢。但是正当我沾沾自喜以为解决了问题的时候，随手验证了另外一个case，就直接冷水泼头了：
a字段和b字段是可能包含同一个id比如2，但是对于统计结果来说要求算作一条。
用上面这个脚本并无法体现出这个区别，而且还会有一个问题：
请求123和请求321时会返回不同统计结果
因为ifelse语句的关系，和||的性质，在满足条件1后便会扔到桶1，而无法在去后续条件中判断。这个脚本有很明显的bug存在。但是painless毕竟是脚本，可以使用的API和关键字都非常有限，写的复杂了还会很严重影响效率，无奈这个方案也只能pass，即使它看上去差点解决了我的问题。

4.filter agg的聚合

在重新看了官方文档后，我发现了agg中的一个用法，filter agg。
filter agg的用法其实很简单，但是全意外的和我的需求很契合。之前忽视掉这个用法的主要原因是看到的示例都是对单字段做聚合。那如何同时聚合多个字段呢？从API入手验证是否可以使用比较灵活的写法

        public KeyedFilter(String key, QueryBuilder filter) {
            if (key == null) {
                throw new IllegalArgumentException("[key] must not be null");
            }
            if (filter == null) {
                throw new IllegalArgumentException("[filter] must not be null");
            }
            this.key = key;
            this.filter = filter;
        }

这是es提供的javaapi中filter agg的构造函数，key就是过滤名称，filter就是过滤条件。而且很友好的是，filter类型为QueryBuilder，也就是说，可以做成比较复杂的过滤方式。

    "aggregations": {
        "batch_count": {
            "filters": {
                "filters": {
                    "1": {
                        "bool": {
                            "should": [{
                                "term": {
                                    "field_a": {
                                        "value": "1",
                                        "boost": 1.0
                                    }
                                }
                            }, {
                                "term": {
                                    "field_b": {
                                        "value": "1",
                                        "boost": 1.0
                                    }
                                }
                            }],
                            "adjust_pure_negative": true,
                            "boost": 1.0
                        }
                    },
                    "2": {
                        "bool": {
                            "should": [{
                                "term": {
                                    "field_a": {
                                        "value": "2",
                                        "boost": 1.0
                                    }
                                }
                            }, {
                                "term": {
                                    "field_b": {
                                        "value": "2",
                                        "boost": 1.0
                                    }
                                }
                            }],
                            "adjust_pure_negative": true,
                            "boost": 1.0
                        }
                    },
                    "3": {
                        "bool": {
                            "should": [{
                                "term": {
                                    "field_a": {
                                        "value": "3",
                                        "boost": 1.0
                                    }
                                }
                            }, {
                                "term": {
                                    "field_b": {
                                        "value": "3",
                                        "boost": 1.0
                                    }
                                }
                            }],
                            "adjust_pure_negative": true,
                            "boost": 1.0
                        }
                    }
                },
                "other_bucket": false,
                "other_bucket_key": "-1"
            }
        }
    }

ES使用script进行聚合

使用es进行聚合, 但是常规的聚合无法在聚合中进行复杂操作,

如:

select avg(field1> 12), sum(round(field2, 1))  from table;

ES可以使用

ScriptedMetricAggregationBuilder

进行复杂的聚合操作但是目前处于试验阶段, 后期可能继续完善, 也可能删除.

官网原文:

This functionality is experimental and may be changed or removed completely in a future release. Elastic will take a best effort approach to fix any issues, but experimental features are not subject to the support SLA of official GA features.

引用:https://www.elastic.co/guide/en/elasticsearch/reference/6.3/search-aggregations-metrics-scripted-metric-aggregation.html

案例:

POST ledger/_search?size=0
{
    "query" : {
        "match_all" : {}
    },
    "aggs": {
        "profit": {
            "scripted_metric": {
                "init_script" : "params._agg.transactions = []",
                "map_script" : "params._agg.transactions.add(doc.type.value == 'sale' ? doc.amount.value : -1 * doc.amount.value)", 
                "combine_script" : "double profit = 0; for (t in params._agg.transactions) { profit += t } return profit",
                "reduce_script" : "double profit = 0; for (a in params._aggs) { profit += a } return profit"
            }
        }
    }
}

输出

{
    "took": 218,
    ...
    "aggregations": {
        "profit": {
            "value": 240.0
        }
   }
}

关键词说明:

脚本化度量标准聚合在其执行的4个阶段使用脚本：

init_script

在任何文件集合之前执行。允许聚合设置任何初始状态。

在上面的示例中，在对象中init_script创建一个数组。transactions_agg

map_script

每个收集的文件执行一次。这是唯一必需的脚本。如果未指定combine_script，则生成的状态需要存储在名为的对象中_agg。

在上面的示例中，map_script检查type字段的值。如果值为sale，则amount字段的值将添加到transactions数组中。如果类型字段的值不是销售，则金额字段的否定值将添加到交易中。

combine_script

文档收集完成后，在每个分片上执行一次。允许聚合合并从每个分片返回的状态。如果未提供combine_script，则组合阶段将返回聚合变量。

在上面的示例中，combine_script迭代遍历所有存储的事务，对profit变量中的值求和并最终返回profit。

reduce_script

在所有分片返回结果后，在协调节点上执行一次。该脚本提供对变量的访问，该变量_aggs是每个分片上combine_script结果的数组。如果未提供reduce_script，则reduce阶段将返回_aggs变量。

在上面的示例中，reduce_script迭代通过profit每个分片返回的值，在返回最终组合利润之前对值进行求和，该最终组合利润将在聚合的响应中返回。

JavaAPI

案例

ScriptedMetricAggregationBuilder aggregation = AggregationBuilders
    .scriptedMetric("agg")
    .initScript(new Script("params._agg.heights = []"))
    .mapScript(new Script("params._agg.heights.add(doc.gender.value == 'male' ? doc.height.value : -1.0 * doc.height.value)"))
    .combineScript(new Script("double heights_sum = 0.0; for (t in params._agg.heights) { heights_sum += t } return heights_sum"))
    .reduceScript(new Script("double heights_sum = 0.0; for (a in params._aggs) { heights_sum += a } return heights_sum"));
import org.elasticsearch.search.aggregations.bucket.terms.Terms;
import org.elasticsearch.search.aggregations.metrics.tophits.TopHits;


// sr is here your SearchResponse object
ScriptedMetric agg = sr.getAggregations().get("agg");
Object scriptedResult = agg.aggregation();
logger.info("scriptedResult [{}]", scriptedResult);

输出:

scriptedResult object [Double]
scriptedResult [2.171917696507009]

elasticsearch aggregation groovy script 语法各种输出

返回map

"scripted_terms": { 
		   
		"scripted_metric": { 
			    
			"init_script": "_agg[\"prd\"] = []",			 

			    "map_script": "if(doc[\"cat2_id\"].value) {_agg.prd.add(doc[\"cat2_id\"].value.toString())}",			 

			    "combine_script": "combined = [:]; for (tmp in _agg.prd) { if(!combined[tmp]) { combined[tmp] = 1 } }; return combined",

			    "reduce_script": "reduced = [:]; for (a in _aggs) {  for (entry in a) { word = entry.key; if (!reduced[word] ) { reduced[word] = entry.value; }  } }; return reduced"
			   
		} 
		  
	}

返回array

"scripted_terms": { 

      "scripted_metric": { 

        "init_script": "_agg[\"prd\"] = []", 

        "map_script": "if(doc[\"cat2_id\"].value) {_agg.prd.add(doc[\"cat2_id\"].value.toString())}", 

        "combine_script": "combined = [:]; for (tmp in _agg.prd) { if(!combined[tmp]) { combined[tmp] = 1 } }; return combined",

        "reduce_script": "reduced = []; for (a in _aggs) { for (entry in a) {  reduced.add(entry.key);  } }; return reduced"

      } 

    }

统计求和

"agg1" : {

      "scripted_metric" : {

        "init_script" : {

          "inline" : "_agg[\"prd\"] = []"

        },

        "map_script" : {

          "inline" : "if(doc[\"cat2_id\"].value) {_agg.prd.add(doc[\"cat2_id\"].value.toString())}"

        },

        "combine_script" : {

          "inline" : "combined = [:]; for (tmp in _agg.prd) { if(!combined[tmp]) { combined[tmp] = 1 } else { combined[tmp]=combined[tmp]+1 } }; return combined"

        },

        "reduce_script" : {

          "inline" : "reduced = [:]; for (a in _aggs) {  for (entry in a) { word = entry.key; if (!reduced[word] ) { reduced[word] = entry.value; } else { reduced[word]=reduced[word]+entry.value}  } }; return reduced"

        }

      }

    }

返回set

{
		"query": {
			"bool": {
				"must": [{
					"term": {
						"business_code": "005"
					}
				}, {
					"term": {
						"tenant_code": "00000007"
					}
				}, {
					"term": {
						"delete_status": "0"
					}
				}, {
					"bool": {
						"should": [{
							"term": {
								"list_type": "02"
							}
						}, {
							"term": {
								"list_type": "01"
							}
						}]
					}
				}],
				"must_not": [],
				"should": []
			}
		},
		"from": 0,
		"size": 1000,
		"sort": [],
		"aggs": {
			"obj_value": {
				"terms": {
					"field": "obj_value",
					"size": 1000
				},
				"aggs": {
					"list_types": {
						"scripted_metric": {
							"init_script": "params._agg.list_type_set=[];",
							"map_script": "params._agg.list_type_set.add(doc['list_type'].value)",
							"reduce_script": "def list_types=new HashSet();params._aggs.forEach(item->{list_types.addAll(item.list_type_set);});return list_types"
						}


					}
				}
			}
		}


	}

返回string

{
		"query": {
			"bool": {
				"must": [{
					"term": {
						"business_code": "005"
					}
				}, {
					"term": {
						"tenant_code": "00000007"
					}
				}, {
					"term": {
						"delete_status": "0"
					}
				}, {
					"bool": {
						"should": [{
							"term": {
								"list_type": "02"
							}
						}, {
							"term": {
								"list_type": "01"
							}
						}]
					}
				}],
				"must_not": [],
				"should": []
			}
		},
		"from": 0,
		"size": 1000,
		"sort": [],
		"aggs": {
			"obj_value": {
				"terms": {
					"field": "obj_value",
					"size": 1000
				},
				"aggs": {
					"list_types": {
						"scripted_metric": {
							"init_script": "params._agg.list_type_set=[];",
							"map_script": "params._agg.list_type_set.add(doc['list_type'].value)",
							"reduce_script": "def list_types=new HashSet();params._aggs.forEach(item->{list_types.addAll(item.list_type_set);});return list_types.toString()"
						}


					}
				}
			}
		}


	}

计算两个字段的乘积

每成交一笔生成一条记录，其中有两个字段，一个是单价（price）,一个是成交量（amount），计算出5天内成交总额

curl -XPOST 'localhost:9200/order/_search?size=0&pretty' -H 'Content-Type: application/json' -d'
{
    "query" : {
        "filtered": {
            "query": {"match_all": {}},
                "filter": {
                    "range": {
                        "date": {
                            "from": ...,
                            "to": ...
                        }
                    }
                }
            }
        }
    },
    "aggs": {
        "total": {
            "scripted_metric": {
                "init_script" : "params._agg.transactions = []",
                "map_script" : "params._agg.transactions.add(doc.price.value * doc.amount.value)",
                "combine_script" : "double total = 0; for (t in params._agg.transactions) { total += t } return total",
                "reduce_script" : "double total = 0; for (a in params._aggs) { total += a } return total"
            }
        }
    }
}
'

聚合查询结果后过滤


	{
		"query": {
			"bool": {
				"must": [{
					"term": {
						"business_code": "005"
					}
				}, {
					"term": {
						"tenant_code": "00000007"
					}
				}, {
					"term": {
						"delete_status": "0"
					}
				}, {
					"bool": {
						"should": [{
							"term": {
								"list_type": "02"
							}
						}, {
							"term": {
								"list_type": "01"
							}
						}]
					}
				}],
				"must_not": [],
				"should": []
			}
		},
		"from": 0,
		"size": 1000,
		"sort": [],
		"post_filter": {
			"bool": {
				"must": [{
					"wildcard": {
						"list_types": "*02*"
					}
				}]
			}
		},
		"aggs": {
			"obj_value": {
				"terms": {
					"field": "obj_value",
					"size": 1000
				},
				"aggs": {
					"list_types": {
						"scripted_metric": {
							"init_script": "params._agg.list_type_set=[];",
							"map_script": "params._agg.list_type_set.add(doc['list_type'].value)",
							"reduce_script": "def list_types=new HashSet();params._aggs.forEach(item->{list_types.addAll(item.list_type_set);});return list_types.toString()"
						}


					}
				}
			}
		}


	}

过滤仅 01 情况

参照：https://www.elastic.co/guide/cn/elasticsearch/guide/current/_post_filter.html

官网API引用:

https://www.elastic.co/guide/en/elasticsearch/client/java-api/6.3/_metrics_aggregations.html#_use_aggregation_response_13

聚合分组排序分页查询



{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "business_code": "005"
          }
        },
        {
          "term": {
            "tenant_code": "00000007"
          }
        },
        {
          "term": {
            "delete_status": "0"
          }
        },
        {
          "bool": {
            "should": [
              {
                "term": {
                  "list_type": "02"
                }
              },
              {
                "term": {
                  "list_type": "01"
                }
              }
            ]
          }
        }
      ],
      "must_not": [],
      "should": []
    }
  },
  "from": 0,
  "size": 0,
  "sort": [
    {
      "create_time": {
        "order": "desc"
      }
    }
  ],
  "post_filter": {
    "bool": {
      "must": [
        {
          "term": {
            "list_type": "02"
          }
        }
      ]
    }
  },
  "aggs": {
    "obj_value": {
      "terms": {
        "field": "obj_value",
        "order": {
          "create_time_order": "desc"
        },
        "size": 1000
      },
      "aggs": {
        "list_type_value": {
          "scripted_metric": {
            "init_script": "params._agg.list_type_set=[];",
            "map_script": "params._agg.list_type_set.add(doc['list_type'].value)",
            "reduce_script": "def list_types=new HashSet();def ret=1; params._aggs.forEach(item->{list_types.addAll(item.list_type_set);}); if(list_types.contains('01')){ret*=2} if(list_types.contains('02')){ret*=3} return ret;"
          }
        },
        "list_types": {
          "scripted_metric": {
            "init_script": "params._agg.list_type_set=[];",
            "map_script": "params._agg.list_type_set.add(doc['list_type'].value)",
            "reduce_script": "def list_types=new HashSet();params._aggs.forEach(item->{list_types.addAll(item.list_type_set);});return list_types.toString()"
          }
        },
        "list_type_filter": {
          "bucket_selector": {
            "buckets_path": {
              "listTypeValue": "list_type_value.value"
            },
            "script": "params.listTypeValue % 3 == 0"
          }
        },
        "create_time_order": {
          "max": {
            "field": "create_time"
          }
        },
        "bucket_field": {
          "bucket_sort": {
            "sort": [
              {
                "create_time_order": {
                  "order": "desc"
                }
              }
            ],
            "from": 10,
            "size": 10
          }
        }
      }
    }
  }
}

特别注意：

外层排序字段应该与内层排序一致，from、size均保持一致

内层bucket size大小应大于等于内层from*size大小

部分java关键代码

/**
     * 根据参数查询
     *
     * @param queryParam 查询参数
     * @return 查询构建器
     */
    public static TermsAggregationBuilder queryAggregationBuilder(ObjectMultiListQueryParam queryParam) {

        int page = queryParam.getPageNum() == null || queryParam.getPageNum() <= 0 ? 1 : queryParam.getPageNum();
        int pageSize = queryParam.getPageSize() == null || queryParam.getPageSize() <= 0 ? 50
            : queryParam.getPageSize();
        pageSize = pageSize > 500 ? 500 : pageSize;
        int size = page * pageSize;
        //聚合分组 先按value
        TermsAggregationBuilder aggregationBuilder = AggregationBuilders.terms(ObjectBasicFieldCst.OBJ_VALUE)
            .field(ObjectBasicFieldCst.OBJ_VALUE)
            .size(size);
        StringBuilder reduceScriptSb = new StringBuilder();
        reduceScriptSb.append(
            "def list_types=new HashSet();def ret=1; params._aggs.forEach(item->{list_types.addAll(item"
                + ".list_type_set);}); ");
        if (CollectionUtils.isNotEmpty(queryParam.getIncludeListTypes())) {
            for (String code : queryParam.getIncludeListTypes()) {
                ListTypeEnum listTypeEnum = ListTypeEnum.parse(code);
                if (ObjectUtils.nonNull(listTypeEnum)) {
                    reduceScriptSb.append("if(list_types.contains('").append(listTypeEnum.getCode()).append("')){ret*=")
                        .append(listTypeEnum.getScore()).append("}");
                }
            }
        }
        reduceScriptSb.append("return ret;");
        // 算分
        Script initScript = new Script("params._agg.list_type_set=[];");
        Script mapScript = new Script("params._agg.list_type_set.add(doc['list_type'].value)");
        Script reduceScript = new Script(reduceScriptSb.toString());

        ScriptedMetricAggregationBuilder listTypeValueScriptedMetricAggregationBuilder = AggregationBuilders
            .scriptedMetric(
                ObjectBasicFieldCst.LIST_TYPES_VALUE).initScript(initScript).mapScript(mapScript).reduceScript(
                reduceScript);
        aggregationBuilder.subAggregation(listTypeValueScriptedMetricAggregationBuilder);

        Script listTypesReduceScript = new Script(
            "def list_types=new HashSet();params._aggs.forEach(item->{list_types.addAll(item.list_type_set);});return"
                + " list_types");
        ScriptedMetricAggregationBuilder listTypeScriptedMetricAggregationBuilder = AggregationBuilders.scriptedMetric(
            ObjectBasicFieldCst.LIST_TYPE_SET).initScript(initScript).mapScript(mapScript).reduceScript(
            listTypesReduceScript);
        aggregationBuilder.subAggregation(listTypeScriptedMetricAggregationBuilder);

        if (CollectionUtils.isNotEmpty(queryParam.getMustIncludeListTypes())) {
            // 声明BucketPath，用于后面的bucket筛选
            Map bucketsPathsMap = new HashMap<>(1, 1);
            bucketsPathsMap.put("listTypesValue", "list_types_value.value");
            int filterScore = 1;
            for (String code : queryParam.getMustIncludeListTypes()) {
                ListTypeEnum listTypeEnum = ListTypeEnum.parse(code);
                if (ObjectUtils.nonNull(listTypeEnum)) {
                    filterScore *= listTypeEnum.getScore();
                }
            }

            // 设置脚本
            Script listTypeFilterScript = new Script("params.listTypesValue % " + filterScore + " == 0");
            // 构建bucket选择器
            BucketSelectorPipelineAggregationBuilder filterBs = PipelineAggregatorBuilders.bucketSelector(
                "list_type_filter",
                bucketsPathsMap, listTypeFilterScript);
            aggregationBuilder.subAggregation(filterBs);
        }
        //
        MaxAggregationBuilder maxAggregationBuilder = AggregationBuilders.max("create_time_order").field(
            ObjectBasicFieldCst.CREATE_TIME);
        aggregationBuilder.subAggregation(maxAggregationBuilder);

        List sorts = Lists.newArrayList();
        FieldSortBuilder fieldSortBuilder = new FieldSortBuilder("create_time_order");
        fieldSortBuilder.order(SortOrder.DESC);
        sorts.add(fieldSortBuilder);
        BucketSortPipelineAggregationBuilder bucketSortPipelineAggregationBuilder = PipelineAggregatorBuilders
            .bucketSort("create_time_bucket_field", sorts).from(page - 1).size(pageSize);
        aggregationBuilder.subAggregation(bucketSortPipelineAggregationBuilder);

        aggregationBuilder.executionHint("map").collectMode(Aggregator.SubAggCollectionMode.BREADTH_FIRST);

        return aggregationBuilder;
    }

post filter

searchSourceBuilder.size(0);
        searchSourceBuilder.aggregation(termsAggregationBuilder);
        if (CollectionsHelper.isNotEmpty(param.getMustIncludeListTypes())) {
            QueryBuilder postQueryBuilder = QueryBuilders.boolQuery().must(
                QueryBuilders.termsQuery(ObjectBasicFieldCst.LIST_TYPE,
                    param.getMustIncludeListTypes()));
            searchSourceBuilder.postFilter(postQueryBuilder);
        }
        searchRequest.source(searchSourceBuilder);

==============================================

bucket_selector

前提
假设我们的文档包括以下几个字段 : activityId, clientIp, orderNumber

目标
依据activityId(策略ID) + clientIp(IP地址)分组聚合, 查找相同策略ID+相同IP下订单数目超过2的聚合结果

实现

{
    "request_body": {
        // 不返回具体的查询数据
        "size": 0,
        "aggs": {
            "group_by_activityId": {
                "terms": {
                    // 多字段聚合
                    "script": "doc['activityId'].values +'#split#'+ doc['clientIp'].values",
                    // 设置聚合返回的最大数目
                    "size": 2147483647
                },
                "aggs": {
                    // 依据orderNumber去重统计数目
                    "orderNumber_count": {
                        "cardinality": {
                            "field": "orderNumber"
                        }
                    },
                    "orderNumber_count_filter": {
                        "bucket_selector": {
                            "buckets_path": {
                                "orderNumberCount": "orderNumber_count"
                            },
                            // 筛选去数目>1
                            "script": "params.orderNumberCount>1"
                        }
                    }
                }
            }
        }
    }
}

这个聚合使用于做分桶后的过滤的，父聚合传下来的参数需要为数值型，聚合中的script需要返回一个布尔型的结果

语法

{
    "bucket_selector": {
        "buckets_path": {
            "my_var1": "the_sum", 
            "my_var2": "the_value_count"
        },
        "script": "params.my_var1 > params.my_var2"
    }
}

参数

参数	描述	是否必填	默认值
script	过滤条件	是
buckets_path	上层聚合的变量	是
gap_policy	当出现间隔时候的处理方式	否	skip

#示例返回按月聚合后销售额大于400的结果

POST /sales/_search
{
    "size": 0,
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month"
            },
            "aggs": {
                "total_sales": {
                    "sum": {
                        "field": "price"
                    }
                },
                "sales_bucket_filter": {
                    "bucket_selector": {
                        "buckets_path": {
                          "totalSales": "total_sales"
                        },
                        "script": "params.totalSales > 200"
                    }
                }
            }
        }
    }
}

每个IP登录人数超过2的IP

这个是对登录记录用户ID的去重数聚合，然后过滤。对用户ID进行去重可以使用Cardinality Aggregation聚合，然后再使用Bucket Selector Aggregation聚合过滤器过滤数据。具体内容如下： 查询语句

{
  "aggs": {
    "IP": {
      "terms": {
        "field": "IP",
        "size": 3000,
        "order": {
          "distinct": "desc"
        },
        "min_doc_count": 5
      },
      "aggs": {
        "distinct": {
          "cardinality": {
            "field": "IP.keyword"
          }
        },
        "dd":{
          "bucket_selector": {
            "buckets_path": {"userCount":"distinct"},
            "script": "params.userCount > 2"
          }
        }
      }
    }
  },
  "size": 0
}

桶聚合选择器：

https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-aggregations-pipeline-bucket-selector-aggregation.html

Elasticsearch多字段分组聚合, 并对分组聚合的count进行筛选

前提
假设我们的文档包括以下几个字段 : activityId, clientIp, orderNumber

目标
依据activityId(策略ID) + clientIp(IP地址)分组聚合, 查找相同策略ID+相同IP下订单数目超过2的聚合结果

实现

{
    "request_body": {
        // 不返回具体的查询数据
        "size": 0,
        "aggs": {
            "group_by_activityId": {
                "terms": {
                    // 多字段聚合
                    "script": "doc['activityId'].values +'#split#'+ doc['clientIp'].values",
                    // 设置聚合返回的最大数目
                    "size": 2147483647
                },
                "aggs": {
                    // 依据orderNumber去重统计数目
                    "orderNumber_count": {
                        "cardinality": {
                            "field": "orderNumber"
                        }
                    },
                    "orderNumber_count_filter": {
                        "bucket_selector": {
                            "buckets_path": {
                                "orderNumberCount": "orderNumber_count"
                            },
                            // 筛选去数目>1
                            "script": "params.orderNumberCount>1"
                        }
                    }
                }
            }
        }
    }
}

======================================

常见问题：

1、类型异常

"type": "search_phase_execution_exception",
    "reason": "all shards failed",
    "phase": "query",
    "grouped": true,
    "failed_shards": [
      {
        "shard": 0,
        "index": "lbs_20190410",
        "node": "Uj-ZStATT9y66mIBIHbpKA",
        "reason": {
          "type": "i_o_exception",
          "reason": "can not write type [class java.util.HashSet]"
        }
      }
    ]

只支持primitive types，String，Map，Array四种类型

异常查询语句

{
		"query": {
			"bool": {
				"must": [{
					"term": {
						"business_code": "005"
					}
				}, {
					"term": {
						"tenant_code": "00000007"
					}
				}, {
					"term": {
						"delete_status": "0"
					}
				}, {
					"bool": {
						"should": [{
							"term": {
								"list_type": "02"
							}
						}, {
							"term": {
								"list_type": "01"
							}
						}]
					}
				}],
				"must_not": [],
				"should": []
			}
		},
		"from": 0,
		"size": 1000,
		"sort": [],
		"aggs": {
			"obj_value": {
				"terms": {
					"field": "obj_value",
					"size": 1000
				},
				"aggs": {
					"list_types": {
						"scripted_metric": {
							"init_script": "params._agg.list_type_set=new HashSet();",
							"map_script": "params._agg.list_type_set.add(doc['list_type'].value)",
							"reduce_script": "def list_types=new HashSet();params._aggs.forEach(item->{list_types.addAll(item.list_type_set);});return list_types"
						}


					}
				}
			}
		}


	}

解决方式：

https://www.elastic.co/guide/en/elasticsearch/reference/5.5/search-aggregations-metrics-scripted-metric-aggregation.html#_allowed_return_types

Whilst any valid script object can be used within a single script, the scripts must return or store in the _agg object only the following types:

primitive types
String
Map (containing only keys and values of the types listed here)
Array (containing elements of only the types listed here)

params._agg.a=new HashSet(); 改为params._agg.a=[];

2、聚合返回仅10条（默认）

解决方式，需要在聚合中增加限制

3、elasticsearch中must和should组合查询

例如在a=1且b=2的数据中，找出c=1或者d=2的数据

例如在a=1且b=2的数据中，找出c=1或者d=2的数据:

{"query": {
   "bool": {
　　"must": [
   　　{"term": {"a": "1"}},
       {"term":{"b": "2"}}
　　],
   "should": [
      {"term": {"c": "1"}},
　　　 {"term": {"d": "2"}}
　　]
    }
  }
}

这样写的时候should是没有用的，这是新手可能犯的错误之一。
在编写查询条件的时候，不能用口头上的逻辑进行编写，而是要换成数学逻辑才能进行执行（数据库同理）。
如上例，数学逻辑应该是 （a==1&&b==2&&c==1）||(a==1&&b==2&&d==2)（java and c语言版），这样的结构去查询。

解决

具体写法有2种：
{
  "query": {
    "bool": {
      "should": [
        {
          "bool": {
            "must": [
                {"term": {"a": "1"}},
                {"term":{"b": "2"}},
                {"term": {"c": "1"}}
            ]
          }
        },
        {
          "bool": {
            "must": [
                {"term": {"a": "1"}},
                {"term":{"b": "2"}},
            　　{"term": {"d": "2"}}
            ]
          }
        }
      ]
    }
  },
  "sort": {
    "time": {
      "order": "desc"
    }
  },
  "size": 100
}
或者：
{
  "query": {
    "bool": {
      "must": [
        {"term": {"a": "1"}},
        {"term":{"b": "2"}}
        {
          "bool": {
            "should": [
                {"term": {"c": "1"}},
            　　{"term": {"d": "2"}}
            ]
          }
        }
      ]
    }
  },
  "sort": {
    "time": {
      "order": "desc"
    }
  },
  "size": 100
}

JAVA API


QueryBuilder query = QueryBuilders.boolQuery()
                    .should(QueryBuilders.boolQuery()
                            .filter(QueryBuilders.termQuery("a", 1))
                            .filter(QueryBuilders.termQuery("b", 2))
                            .filter(QueryBuilders.termQuery("c", 1))
                    .should(QueryBuilders.boolQuery()
                            .filter(QueryBuilders.termQuery("a", 1))
                            .filter(QueryBuilders.termQuery("b", 2))
                            .filter(QueryBuilders.termQuery("d", 2));

============================================

其实shoule在与must或者filter同级时，默认是不需要满足should中的任何条件的，此时我们可以加上minimum_should_match 参数，来达到我们的目的，即上述代码改为：

{
		"query": {
			 
			"bool": {				　　
				"must": [
					 　　{
						"match": {							  　　
							"c": "3"							　　
						}
					}					　　
				],

				 "should": [
					   {
						"match": {							   
							"a": "1"							  　
						},
						　　　 {
							"match": {							　　　　
								"b": "2"
								　　　　
							}
						}
						　　],

					  "minimum_should_match": 1
				}
			}
		}

上述代码表示，必须满足must中的所有条件，并且至少满足should中的一个条件，这样，就得到了预期的结果。

==========================================================

JAVA开发

Aggregation 概述

Aggregation 可以和普通查询结果并存，一个查询结果中也允许包含多个不相关的Aggregation. 如果只关心聚合结果而不关心查询结果的话会把SearchSource的size设置为0，能有效提高性能.

Aggregation 类型

Metrics:
简单聚合类型, 对于目标集和中的所有文档计算聚合指标, 一般没有嵌套的sub aggregations. 比如平均值(avg) , 求和 (sum), 计数 (count), 基数 (cardinality). Cardinality对应distinct count
Bucketing:
桶聚合类型, 在一系列的桶而不是所有文档上计算聚合指标,每个桶表示原始结果集合中符合某种条件的子集. 一般有嵌套的sub aggregations. 典型的如TermsAggregation, HistogramAggregation
Matrix:
矩阵聚合, 多维度聚合, 即根据两个或者多个聚合维度计算二维甚至多维聚合指标表格. 目前貌似只有一种MatrixStatAggregation. 并且目前不支持脚本(scripting)
Pipeline:
管道聚合, 在之前聚合结果的基础上再次进行聚合计算, 往往和Bucketing Aggregation 结合起来使用. 举列: 先求出过去30天每天的交易总金额 (Bucketing aggregation)，再统计交易总金额大于10000的天数 (Pipeline aggregation).

Aggregation 结构

Aggregation request:
两层结构:
Aggregation -> SubAggregation
Sub aggregation是在原来的Aggregation的计算结果中进一步做聚合计算

Aggregation response:
三层结构: (针对Bucketing aggregation) MultiBucketsAggregation -> Buckets -> Aggregations

Aggregation 属性:
name: 和请求中的Aggregation的名字对应
buckets: 每个Bucket对应Agggregation结果中每一个可能的取值和相应的聚合结果.

Bucket 属性:
key: 对应的是聚合维度可能的取值, 具体的值和Aggregation的类型有关, 比如Term aggregation (按交易类型计算总金额), 那么Bucket key值就是所有可能的交易类型 (credit/debit etc). 又比如DateHistogram aggregation (按天计算交易笔数), 那么Bucket key值就是具体的日期.
docCount: 对应的是每个桶中的文本数量.
value: 对应的是聚合指标的计算结果. 注意如果是多层Aggregation计算, 中间层的Aggregation value一般没有值, 比如Term aggregation. 只有到底层具体计算指标的Aggregation才有值.
aggregations: 对应请求中当前Aggregation的subAggregation的计算结果 (如果存在)

SQL映射成Aggregation

SQL映射实现的前提: 只针对聚合计算，即sql select部分存在聚合函数类型的column

映射过程很难直接描述，上几个例子方便大家理解，反正SQL的结构也无非就是SELECT/FROM/WHERE/GROUP BY/HAVING/ORDER BY. ORDER BY先不讨论，一般聚合结果不太关心顺序. FROM也很容易理解,就是索引的名字.

SQL组成部分对应的ES Builder:

Column 1	Column 2	Column 3
select column (聚合函数)	MetricsAggregationBuilder 由 column对应聚合函数决定 (例如 MaxAggregationBuilder)
select column (group by 字段)	Bucket key
where	FiltersAggregationBuilder + FiltersAggregator.KeydFilter	keyedFilter = FiltersAggregator.KeyedFilter("combineCondition", sub QueryBuilder) AggregationBuilders.filters("whereAggr", keyedFilter)
group by	TermsAggregationBuilder	AggregationBuilders.terms("aggregation name").field(fieldName)
having	MetricsAggregationBuilder 由 having 条件聚合函数决定 (例如 MaxAggregationBuilder) + BucketSelectorPipelineAggregationBuilder	PipelineAggregatorBuilders.bucketSelector(aggregationName, bucketPathMap, script)

常用的SQL运算符和聚合函数对应的ES Builder:

Sql element	Aggregation Type	Code to build
count(field)	ValueCountAggregationBuilder	AggregationBuilders.count(metricsName).field(fieldName)
count(distinct field)	CardinalityAggregationBuilder	AggregationBuilders.cardinality(metricsName).field(fieldName)
sum(field)	SumAggregationBuilder	AggregationBuilders.sum(metricsName).field(fieldName)
min(field)	MinAggregationBuilder	AggregationBuilders.min(metricsName).field(fieldName)
max(field)	MaxAggregationBuilder	AggregationBuilders.max(metricsName).field(fieldName)
avg(field)	AvgAggregationBuilder	AggregationBuilders.avg(metricsName).field(fieldName)
AND	BoolQueryBuilder	QueryBuilders.boolQuery().must().add(sub QueryBuilder)
OR	BoolQueryBuilder	QueryBuilders.boolQuery().should().add(sub QueryBuilder)
NOT	BoolQueryBuilder	QueryBuilders.boolQuery().mustNot().add(sub QueryBuilder)
=	TermQueryBuilder	QueryBuilders.termQuery(fieldName, value)
IN	TermsQueryBuilder	QueryBuilders.termsQuery(fieldName, values)
LIKE	WildcardQueryBuilder	QueryBuilders.wildcardQuery(fieldName, value)
>	RangeQueryBuilder	QueryBuilders.rangeQuery(fieldName).gt(value)
>=	RangeQueryBuilder	QueryBuilders.rangeQuery(fieldName).gte(value)
<	RangeQueryBuilder	QueryBuilders.rangeQuery(fieldName).lt(value)
<=	RangeQueryBuilder	QueryBuilders.rangeQuery(fieldName).lte(value)

1.select count(payerId) as payerCount from Payment group by country

这里需要注意的是payerId这个doc的属性在实际构造的Aggregation query 中变成了 payerId.keyword，Elasticsearch 默认对于分词的字段(text类型)不支持聚合，会报出 "Fielddata is disabled on text fields by default. Set fielddata=true"的错误. fielddata聚合是一个非常costly的运算,一般不建议使用. 好在Elasticsearch索引时默认会对payerId这个属性生成两个字段, payerId 是分词的text类型, payerId.keyword是不分词的keyword类型.

2.select max(payerId) from Payment group by accountId, country

两个group by 条件对应两层term aggregation

3.select count(distinct payerId) as payerCount from Payment where country in (‘CN‘, ‘GE‘) group by accountId, country

增加了where条件, 在顶层是一个FiltersAggregationBuilder. 其中分为两部分, 其中filters对应的是所有查询条件构建的一个KeyedFilter, 其中又包含了多个子查询条件. aggregations 对应的是groupBy条件和select部分的聚合函数

4.select count(distinct payerId) as payerCount from Payment where withinTime(createAt, 1, ‘DAY‘) and name like ‘%SH%‘ group by accountId, country

多个where条件, 用BoolQueryBuilder组合起来

5.select max(amount) as maxAmt, min(amount) as minAmt from Payment where amount > 1000.00 or amount <= 50.53 group by accountId, country having count(distinct beneficiaryId) > 3 and sum(amount) > 1530.20

史上最复杂SQL产生! 这里主要关注having部分的处理, 用到了Pipeline类型的BucketSelectorPipelineAggregationBuilder. 在最后一个GroupBy 条件对应的term aggregation下增加了两类子节点: sub aggregations 除了包括select 部分的聚合函数还包括having条件对应的聚合函数. pipeline aggregations 包括having条件对应的 BucketSelectorPipelineAggregationBuilder. BucketSelectorPipelineAggregationBuilder 主要的属性有: bucketsPathMap: 保存了path的名字和对应的聚合属性的映射，script: 用脚本描述聚合条件，但是条件左侧不直接使用属性名而是path的名字替换
注意虽然从逻辑上来说having 条件是应用在之前计算出聚合的结果之上, 但是从ES Aggregation的结构来看, BucketSelectorPipelineAggregationBuilder和having 条件中对应聚合指标的Aggregation是兄弟关系而不是父子关系！
另外要注意script path 是对于兄弟节点(sibling node)一个相对路径而不是从根节点Aggregation的绝对路径,用的是聚合属性的名称而不是Aggregation本身的名称. 并且要求根据路径访问到的Bucket必须是唯一的，因为BucketSelector只是根据条件判断当前Bucket是否被选择, 如果路径返回多个Bucket则无法应用这种Bool判断.

6.select count(paymentId) from Payment group by timeRange(createdAt, ‘1D‘, ‘yyyy/MM/dd‘)

这里用到一个自定义函数timeRage, 表示对于createAt这个属性按天聚合，对应的ES aggregation类型为DateHistogramAggregation

其他注意事项

Bucket count

Distinct count: Elasticsearch 采用的是基于hyperLogLog的近似算法.

Reference

https://www.elastic.co/guide/en/elasticsearch/reference/current/fielddata.html

======================================================================

Elasticsearch-sql groupby 聚合查询limit查询操作

在使用Elasticsearch-sql插件查询ES中，我们经常遇到多个字段group by聚合查询，例如：

select /*! IGNORE_UNAVAILABLE */ SUM(errorCount) as num    
from ctbpm-js-data-2018-w32,ctbpm-js-data-2018-w27,ctbpm-js-data-2018-w28,
ctbpm-js-data-2018-w29,ctbpm-js-data-2018-w30,ctbpm-js-data-2018-w31    
where appCode = '5f05acfc9a084d9f9a07e165a2516c18' and logTime>= '2018-07-07T09:57:15.436Z' and logTime<= '2018-08-07T09:57:15.436Z'    
group by pageRef,province,city,ip limit 100

解析后：


{
    "from": 0,
    "size": 0,
    "query": {
        "bool": {
            "filter": [
                {
                    "bool": {
                        "must": [
                            {
                                "bool": {
                                    "must": [
                                        {
                                            "match_phrase": {
                                                "appCode": {
                                                    "query": "5f05acfc9a084d9f9a07e165a2516c18",
                                                    "slop": 0,
                                                    "boost": 1
                                                }
                                            }
                                        },
                                        {
                                            "range": {
                                                "logTime": {
                                                    "from": "2018-07-07T09:57:15.436Z",
                                                    "to": null,
                                                    "include_lower": true,
                                                    "include_upper": true,
                                                    "boost": 1
                                                }
                                            }
                                        },
                                        {
                                            "range": {
                                                "logTime": {
                                                    "from": null,
                                                    "to": "2018-08-07T09:57:15.436Z",
                                                    "include_lower": true,
                                                    "include_upper": true,
                                                    "boost": 1
                                                }
                                            }
                                        }
                                    ],
                                    "disable_coord": false,
                                    "adjust_pure_negative": true,
                                    "boost": 1
                                }
                            }
                        ],
                        "disable_coord": false,
                        "adjust_pure_negative": true,
                        "boost": 1
                    }
                }
            ],
            "disable_coord": false,
            "adjust_pure_negative": true,
            "boost": 1
        }
    },
    "_source": {
        "includes": [
            "SUM"
        ],
        "excludes": []
    },
    "aggregations": {
        "pageRef": {
            "terms": {
                "field": "pageRef",
                "size": 100,
                "shard_size": 2000,
                "min_doc_count": 1,
                "shard_min_doc_count": 0,
                "show_term_doc_count_error": false,
                "order": [
                    {
                        "_count": "desc"
                    },
                    {
                        "_term": "asc"
                    }
                ]
            },
            "aggregations": {
                "province": {
                    "terms": {
                        "field": "province",
                        "size": 10,
                        "min_doc_count": 1,
                        "shard_min_doc_count": 0,
                        "show_term_doc_count_error": false,
                        "order": [
                            {
                                "_count": "desc"
                            },
                            {
                                "_term": "asc"
                            }
                        ]
                    },
                    "aggregations": {
                        "city": {
                            "terms": {
                                "field": "city",
                                "size": 10,
                                "min_doc_count": 1,
                                "shard_min_doc_count": 0,
                                "show_term_doc_count_error": false,
                                "order": [
                                    {
                                        "_count": "desc"
                                    },
                                    {
                                        "_term": "asc"
                                    }
                                ]
                            },
                            "aggregations": {
                                "ip": {
                                    "terms": {
                                        "field": "ip",
                                        "size": 10,
                                        "min_doc_count": 1,
                                        "shard_min_doc_count": 0,
                                        "show_term_doc_count_error": false,
                                        "order": [
                                            {
                                                "_count": "desc"
                                            },
                                            {
                                                "_term": "asc"
                                            }
                                        ]
                                    },
                                    "aggregations": {
                                        "num": {
                                            "sum": {
                                                "field": "errorCount"
                                            }
                                        }
                                    }
                                }
                            }
                        }
                    }
                }
            }
        }
    }
}

我们看到解析后的json看到：limit 15中的15只对group by 后面的第一个字段起作用，其他的字段size其实都是10，limit并没起作用，这就是Elasticsearch-sql针对group by存在的问题。

解决方式为：

使用terms(field='correspond_brand_name',size='10',alias='correspond_brand_name',include='\".*sport.*\"',exclude='\"water_.*\"')")

注意：这种方式不再添加limit关键词，另外还要注意group by后面字段的顺序不一样，因为数据的情况，查询结果条数不一样，但是整体是没有问题的。


select /*! IGNORE_UNAVAILABLE */ SUM(errorCount) as num    
from ctbpm-js-data-2018-w32,ctbpm-js-data-2018-w27,ctbpm-js-data-2018-w28,
ctbpm-js-data-2018-w29,ctbpm-js-data-2018-w30,ctbpm-js-data-2018-w31    
where appCode = '5f05acfc9a084d9f9a07e165a2516c18' and logTime>= '2018-07-07T09:57:15.436Z' and logTime<= '2018-08-07T09:57:15.436Z'    
group by terms(field='pageRef',size='15',alias='pageRef'),
terms(field='province',size='15',alias='province'),
terms(field='city',size='15',alias='city'),
terms(field='ip',size='15',alias='ip')

解析后：


{
    "from": 0,
    "size": 0,
    "query": {
        "bool": {
            "filter": [
                {
                    "bool": {
                        "must": [
                            {
                                "bool": {
                                    "must": [
                                        {
                                            "match_phrase": {
                                                "appCode": {
                                                    "query": "5f05acfc9a084d9f9a07e165a2516c18",
                                                    "slop": 0,
                                                    "boost": 1
                                                }
                                            }
                                        },
                                        {
                                            "range": {
                                                "logTime": {
                                                    "from": "2018-07-07T09:57:15.436Z",
                                                    "to": null,
                                                    "include_lower": true,
                                                    "include_upper": true,
                                                    "boost": 1
                                                }
                                            }
                                        },
                                        {
                                            "range": {
                                                "logTime": {
                                                    "from": null,
                                                    "to": "2018-08-07T09:57:15.436Z",
                                                    "include_lower": true,
                                                    "include_upper": true,
                                                    "boost": 1
                                                }
                                            }
                                        }
                                    ],
                                    "disable_coord": false,
                                    "adjust_pure_negative": true,
                                    "boost": 1
                                }
                            }
                        ],
                        "disable_coord": false,
                        "adjust_pure_negative": true,
                        "boost": 1
                    }
                }
            ],
            "disable_coord": false,
            "adjust_pure_negative": true,
            "boost": 1
        }
    },
    "_source": {
        "includes": [
            "SUM"
        ],
        "excludes": []
    },
    "aggregations": {
        "pageRef": {
            "terms": {
                "field": "pageRef",
                "size": 15,
                "min_doc_count": 1,
                "shard_min_doc_count": 0,
                "show_term_doc_count_error": false,
                "order": [
                    {
                        "_count": "desc"
                    },
                    {
                        "_term": "asc"
                    }
                ]
            },
            "aggregations": {
                "province": {
                    "terms": {
                        "field": "province",
                        "size": 15,
                        "min_doc_count": 1,
                        "shard_min_doc_count": 0,
                        "show_term_doc_count_error": false,
                        "order": [
                            {
                                "_count": "desc"
                            },
                            {
                                "_term": "asc"
                            }
                        ]
                    },
                    "aggregations": {
                        "city": {
                            "terms": {
                                "field": "city",
                                "size": 15,
                                "min_doc_count": 1,
                                "shard_min_doc_count": 0,
                                "show_term_doc_count_error": false,
                                "order": [
                                    {
                                        "_count": "desc"
                                    },
                                    {
                                        "_term": "asc"
                                    }
                                ]
                            },
                            "aggregations": {
                                "ip": {
                                    "terms": {
                                        "field": "ip",
                                        "size": 15,
                                        "min_doc_count": 1,
                                        "shard_min_doc_count": 0,
                                        "show_term_doc_count_error": false,
                                        "order": [
                                            {
                                                "_count": "desc"
                                            },
                                            {
                                                "_term": "asc"
                                            }
                                        ]
                                    },
                                    "aggregations": {
                                        "num": {
                                            "sum": {
                                                "field": "errorCount"
                                            }
                                        }
                                    }
                                }
                            }
                        }
                    }
                }
            }
        }
    }
}

从解析后的内容看出：四个字段的size都是15了，可以使用postman查询看看，结果是正确的。

语法来自： https://github.com/NLPchina/elasticsearch-sql中的terms用法。

补充：如果是nested(嵌套查询)，比如：

select /*! IGNORE_UNAVAILABLE */ SUM(errorCount) as num   
from ctbpm-js-data-2018-w32,ctbpm-js-data-2018-w27,ctbpm-js-data-2018-w28,ctbpm-js-data-2018-w29,ctbpm-js-data-2018-w30,ctbpm-js-data-2018-w31   
where appCode = '5f05acfc9a084d9f9a07e165a2516c18'        
and logTime>= '2018-07-08T06:20:13.144Z'    
and logTime<= '2018-08-08T06:20:13.144Z'
group by pageRef,province,city,ip,nested(errors.message) limit 10

那么需要这么来查：


select /*! IGNORE_UNAVAILABLE */ SUM(errorCount) as num   
from ctbpm-js-data-2018-w32,ctbpm-js-data-2018-w27,ctbpm-js-data-2018-w28,ctbpm-js-data-2018-w29,ctbpm-js-data-2018-w30,ctbpm-js-data-2018-w31   
where appCode = '5f05acfc9a084d9f9a07e165a2516c18'        
and logTime>= '2018-07-08T06:20:13.144Z'    
and logTime<= '2018-08-08T06:20:13.144Z'
group by terms(field='pageRef',size='15',alias='pageRef'),
terms(field='province',size='1',alias='province'),
terms(field='city',size='2',alias='city'),
terms(field='ip',size='3',alias='ip'),
terms(field='errors.message',size='4',alias='errors.message',nested="errors")

========================================================

elasticsearch的先聚合和过滤、先过滤再聚合的详解

对于elasticsearch的聚合和过滤，他的结果并不会受到你写的顺序而影响。换句话说就是你无论是在聚合语句的前面写过滤条件，还是在过滤语句后面写过滤条件都不会影响他的结果。他都会先过滤再聚合和关系数据库一样先where后group by。

但是如果你想过滤条件不影响聚合(agg)结果，而只是改变hits结果；可以使用setPostFilter() 这个方法

eg：全部数据

代码：

SearchResponse response = null;

SearchRequestBuilder responsebuilder = client.prepareSearch("company")

.setTypes("employee").setFrom(0).setSize(250);

AggregationBuilder aggregation = AggregationBuilders

.terms("agg")

.field("age") ;

response = responsebuilder

.addAggregation(aggregation)

.setExplain(true).execute().actionGet();

SearchHits hits = response.getHits();

Terms agg = response.getAggregations().get("agg");

结果：仅聚合结果不过滤（注意看hits和agg里的结果）

{

    "took":100,

    "timed_out":false,

    "_shards":{

        "total":5,

        "successful":5,

        "failed":0

    },

    "hits":{

        "total":7,

        "max_score":1,

        "hits":[

            {

                "_shard":1,

                "_node":"fvp3NBT5R5i6CqN3y2LU4g",

                "_index":"company",

                "_type":"employee",

                "_id":"5",

                "_score":1,

                "_source":{

                    "name":"Fresh",

                    "age":22

                },

                "_explanation":Object{...}

            },

            {

                "_shard":1,

                "_node":"fvp3NBT5R5i6CqN3y2LU4g",

                "_index":"company",

                "_type":"employee",

                "_id":"10",

                "_score":1,

                "_source":{

                    "name":"Henrry",

                    "age":30

                },

                "_explanation":Object{...}

            },

            {

                "_shard":1,

                "_node":"fvp3NBT5R5i6CqN3y2LU4g",

                "_index":"company",

                "_type":"employee",

                "_id":"9",

                "_score":1,

                "_source":{

                    "address":{

                        "country":"china",

                        "province":"jiangsu",

                        "city":"nanjing",

                        "area":{

                            "pos":"10001"

                        }

                    }

                },

                "_explanation":Object{...}

            },

            {

                "_shard":2,

                "_node":"fvp3NBT5R5i6CqN3y2LU4g",

                "_index":"company",

                "_type":"employee",

                "_id":"2",

                "_score":1,

                "_source":{

                    "address":{

                        "country":"china",

                        "province":"jiangsu",

                        "city":"nanjing"

                    },

                    "name":"jack_1",

                    "age":19,

                    "join_date":"2016-01-01"

                },

                "_explanation":Object{...}

            },

            {

                "_shard":2,

                "_node":"fvp3NBT5R5i6CqN3y2LU4g",

                "_index":"company",

                "_type":"employee",

                "_id":"4",

                "_score":1,

                "_source":{

                    "name":"willam",

                    "age":18

                },

                "_explanation":Object{...}

            },

            {

                "_shard":2,

                "_node":"fvp3NBT5R5i6CqN3y2LU4g",

                "_index":"company",

                "_type":"employee",

                "_id":"6",

                "_score":1,

                "_source":{

                    "name":"Avivi",

                    "age":30

                },

                "_explanation":Object{...}

            },

            {

                "_shard":4,

                "_node":"K7qK1ncMQUuIe0K6VSVMJA",

                "_index":"company",

                "_type":"employee",

                "_id":"3",

                "_score":1,

                "_source":{

                    "address":{

                        "country":"china",

                        "province":"shanxi",

                        "city":"xian"

                    },

                    "name":"marry",

                    "age":35,

                    "join_date":"2015-01-01"

                },

                "_explanation":Object{...}

            }

        ]

    },

    "aggregations":{

        "agg":{

            "doc_count_error_upper_bound":0,

            "sum_other_doc_count":0,

            "buckets":[

                {

                    "key":30,

                    "doc_count":2

                },

                {

                    "key":18,

                    "doc_count":1

                },

                {

                    "key":19,

                    "doc_count":1

                },

                {

                    "key":22,

                    "doc_count":1

                },

                {

                    "key":35,

                    "doc_count":1

                }

            ]

        }

    }

}

1、setQuery() 写在前面

代码：

SearchResponse response = null;

SearchRequestBuilder responsebuilder = client.prepareSearch("company")

.setTypes("employee").setFrom(0).setSize(250);

AggregationBuilder aggregation = AggregationBuilders

.terms("agg")

.field("age") ;

response = responsebuilder

.setQuery(QueryBuilders.rangeQuery("age").gt(30).lt(40))

.addAggregation(aggregation)

.setExplain(true).execute().actionGet();

SearchHits hits = response.getHits();

Terms agg = response.getAggregations().get("agg");

结果：

{

    "took":538,

    "timed_out":false,

    "_shards":{

        "total":5,

        "successful":5,

        "failed":0

    },

    "hits":{

        "total":1,

        "max_score":1,

        "hits":[

            {

                "_shard":4,

                "_node":"anlkGjjuQ0G6DODpZgiWrQ",

                "_index":"company",

                "_type":"employee",

                "_id":"3",

                "_score":1,

                "_source":{

                    "address":{

                        "country":"china",

                        "province":"shanxi",

                        "city":"xian"

                    },

                    "name":"marry",

                    "age":35,

                    "join_date":"2015-01-01"

                },

                "_explanation":Object{...}

            }

        ]

    },

    "aggregations":{

        "agg":{

            "doc_count_error_upper_bound":0,

            "sum_other_doc_count":0,

            "buckets":[

                {

                    "key":35,

                    "doc_count":1

                }

            ]

        }

    }

}

2、setQuery() 写在后面

代码：

SearchResponse response = null;

SearchRequestBuilder responsebuilder = client.prepareSearch("company")

.setTypes("employee").setFrom(0).setSize(250);

AggregationBuilder aggregation = AggregationBuilders

.terms("agg")

.field("age") ;

response = responsebuilder

.addAggregation(aggregation)

.setQuery(QueryBuilders.rangeQuery("age").gt(30).lt(40)

.setExplain(true).execute().actionGet();

SearchHits hits = response.getHits();

Terms agg = response.getAggregations().get("agg");

结果：

  

{

    "took":538,

    "timed_out":false,

    "_shards":{

        "total":5,

        "successful":5,

        "failed":0

    },

    "hits":{

        "total":1,

        "max_score":1,

        "hits":[

            {

                "_shard":4,

                "_node":"anlkGjjuQ0G6DODpZgiWrQ",

                "_index":"company",

                "_type":"employee",

                "_id":"3",

                "_score":1,

                "_source":{

                    "address":{

                        "country":"china",

                        "province":"shanxi",

                        "city":"xian"

                    },

                    "name":"marry",

                    "age":35,

                    "join_date":"2015-01-01"

                },

                "_explanation":Object{...}

            }

        ]

    },

    "aggregations":{

        "agg":{

            "doc_count_error_upper_bound":0,

            "sum_other_doc_count":0,

            "buckets":[

                {

                    "key":35,

                    "doc_count":1

                }

            ]

        }

    }

}

3、setPostFilter() 在聚合.aggAggregation()方法后

代码：

SearchResponse response = null;

SearchRequestBuilder responsebuilder = client.prepareSearch("company")

.setTypes("employee").setFrom(0).setSize(250);

AggregationBuilder aggregation = AggregationBuilders

.terms("agg")

.field("age") ;

response = responsebuilder

.addAggregation(aggregation)

.setPostFilter(QueryBuilders.rangeQuery("age").gt(30).lt(40))

.setExplain(true).execute().actionGet();

SearchHits hits = response.getHits();

Terms agg = response.getAggregations().get("agg");

结果：

{

    "took":7,

    "timed_out":false,

    "_shards":{

        "total":5,

        "successful":5,

        "failed":0

    },

    "hits":{

        "total":1,

        "max_score":1,

        "hits":[

            {

                "_shard":4,

                "_node":"fvp3NBT5R5i6CqN3y2LU4g",

                "_index":"company",

                "_type":"employee",

                "_id":"3",

                "_score":1,

                "_source":{

                    "address":{

                        "country":"china",

                        "province":"shanxi",

                        "city":"xian"

                    },

                    "name":"marry",

                    "age":35,

                    "join_date":"2015-01-01"

                },

                "_explanation":Object{...}

            }

        ]

    },

    "aggregations":{

        "agg":{

            "doc_count_error_upper_bound":0,

            "sum_other_doc_count":0,

            "buckets":[

                {

                    "key":30,

                    "doc_count":2

                },

                {

                    "key":18,

                    "doc_count":1

                },

                {

                    "key":19,

                    "doc_count":1

                },

                {

                    "key":22,

                    "doc_count":1

                },

                {

                    "key":35,

                    "doc_count":1

                }

            ]

        }

    }

}

4、setPostFilter() 在聚合.aggAggregation()方法前

代码：

SearchResponse response = null;

SearchRequestBuilder responsebuilder = client.prepareSearch("company")

.setTypes("employee").setFrom(0).setSize(250);

AggregationBuilder aggregation = AggregationBuilders

.terms("agg")

.field("age") ;

response = responsebuilder

.setPostFilter(QueryBuilders.rangeQuery("age").gt(30).lt(40))

.addAggregation(aggregation)

.setExplain(true).execute().actionGet();

SearchHits hits = response.getHits();

Terms agg = response.getAggregations().get("agg");

结果：

{

    "took":5115,

    "timed_out":false,

    "_shards":{

        "total":5,

        "successful":5,

        "failed":0

    },

    "hits":{

        "total":1,

        "max_score":1,

        "hits":[

            {

                "_shard":4,

                "_node":"b8cNIO5cQr2MmsnsuluoNQ",

                "_index":"company",

                "_type":"employee",

                "_id":"3",

                "_score":1,

                "_source":{

                    "address":{

                        "country":"china",

                        "province":"shanxi",

                        "city":"xian"

                    },

                    "name":"marry",

                    "age":35,

                    "join_date":"2015-01-01"

                },

                "_explanation":Object{...}

            }

        ]

    },

    "aggregations":{

        "agg":{

            "doc_count_error_upper_bound":0,

            "sum_other_doc_count":0,

            "buckets":[

                {

                    "key":30,

                    "doc_count":2

                },

                {

                    "key":18,

                    "doc_count":1

                },

                {

                    "key":19,

                    "doc_count":1

                },

                {

                    "key":22,

                    "doc_count":1

                },

                {

                    "key":35,

                    "doc_count":1

                }

            ]

        }

    }

}

总结：

(补充说明:setQuery()会查询后进行打分, 而setPostFilter()查询会不打分,只是判断查询结果是否满足过滤条件, 满足的话返回吗即处理"是与不是"的问题)

可以从运行的结果很好的看出无论是setPostFilter()还是setQuery()，它放在那的顺序并不会影响他的结果。更可以看出setQuery()这个方法的过滤条件不仅会影响它的hits的结果还会影响他的聚合（agg）结果。然而对于setPostFilter()这个方法，它只会影响hits的结果，并不会影响它的聚合（agg）结果。

PS:

springboot中elasticSearch查询 https://blog.csdn.net/Topdandan/article/details/81436141

你可能感兴趣的:(elasticsearch)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
docker部署elasticsearch 大大陈· elasticsearch docker 大数据
docker部署es1.简单启动2.配置文件3.安装es步骤1.简单启动#"discovery.type=single-node"标识单机启动dockerrun-d--nameelasticsearch-p9200:9200-p9300:9300-e"discovery.type=single-node"elasticsearch:tag#如果没有上面的标识，是集群启动，不这样做会报错#但是这样启
Docker安装elasticsearch和kibana viego1999 elasticsearch docker 大数据
1、首先拉取elasticsearch镜像dockerpullelasticsearch:7.9.12、创建docker挂载的目录我这里将docker环境下挂在的目录统一放在了/dockerdata目录下mkdir-p/dockerdata/elasticsearch/configmkdir-p/dockerdata/elasticsearch/datamkdir-p/dockerdata/ela
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
MySQL同步数据到Elasticsearch 运维小雅 elasticsearch mysql 大数据
背景随着平台的业务日益增多，基于数据库的全文搜索查询速度较慢，已经无法满足需求。所以，决定基于Elasticsearch做一个全文搜索平台，支持业务相关的搜索需求。那么第一个问题就是：如何从MySQL同步数据到Elasticsearch？解决方案一：基于Logstash同步数据该方案上次有详细说明过，这里就简单描述一下。Logstash同步数据流程图：优点：1、组件少，只需要Logstash就可以
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
java实现es分页查询_elasticsearch high level rest api分页查询数据 weixin_42565971 java实现es分页查询
Transport方式查询数据，在今后的elasticsearch中将不在维护，官方推荐用用highlevelrestapi或者lowerlevelapi去操作elasticsearch中的数据。在elasticsearch的增删改查操作中，其实最复杂的也就是分页查询了，根据elasticsearch官方资料，做个简单的笔记.1.准备jar包,我用的elasticsearch7.3版本,各版本需要
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
python 写入es_python-elasticsearch从创建索引到写入数据夙砂酒 python 写入es
创建索引fromelasticsearchimportElasticsearches=Elasticsearch('192.168.1.1:9200')mappings={"mappings":{"type_doc_test":{#type_doc_test为doc_type"properties":{"id":{"type":"long","index":"false"},"serial":{"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
springboot指定依赖jar版本 m0_67402235 java java 后端
项目是maven父子项目结构如下：有多个子项目，因为springboot版本采用的是1.5.所以默认导入的elasticsearch版本是1.2.，而我们的集群是6.*的版本，试了很多次最后解决问题如下：在父pom的dependencyManagement中添加指定版本就可以了因为！！！父pom中指定版本优先级最高，所以可以解决子依赖pom中的版本问题。子模块只需要引入就可以了
ElasticSearch-多边形范围查询(8.x) W_Meng_H #ElasticSearch #SpringBoot elasticsearch 大数据搜索引擎
目录一、字段设计二、数据录入三、查询语句四、Java代码实现开发版本详见：Elasticsearch-经纬度查询(8.x-半径查询)_es经纬度范围查询-CSDN博客一、字段设计PUT/aoi_points{"mappings":{"properties":{"location":{"type":"geo_shape"}}}}aoi_points是索引名称，location是字段名称，它将存储地理
Elasticsearch文档值知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，文档值（DocValues）是用于高效存储和检索数据的一种数据结构，特别是在处理聚合、排序和过滤操作时。文档值是Elasticsearch为每个字段生成的预先计算的格式化数据，目的是改善性能和降低内存使用。什么是文档值（DocValues）文档值是将字段的数据存储在磁盘上的一种方式，使得字段的值以列式结构存储。这种存储方式使得对字段的高效检索和聚合成为可能，尤其是在
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
elasticsearch 图灵农场 tl微服务专题
cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
Grafana仪表盘设计最佳实践：如何创建有效的监控面板范范0825 grafana 信息可视化
Grafana仪表盘设计最佳实践：如何创建有效的监控面板引言Grafana是一个开源的数据可视化和监控平台，它提供了丰富的仪表盘功能，用于展示和分析各种数据源（如Prometheus、InfluxDB、Elasticsearch等）。有效的仪表盘设计能够帮助团队迅速识别和解决问题，提高系统的可靠性和性能。本文将深入探讨如何设计高效的Grafana仪表盘，涵盖最佳实践和实际应用。1.了解需求和目标1
es安装ik分词器 abments ES elasticsearch jenkins 大数据
下载分词器首先确定es对应的版本（假设版本是7.10.0）根据版本下载指定的分词器开始安装在线安装./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip离线安装-
Elasticsearch——配置详解 smart哥 elasticsearch专题 elasticsearch 搜索引擎
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析阶段5、深入jvm源码解析码哥源码部分码哥讲源码-原理源码篇【2024年最新大厂关于线程池使用的场
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h