这一节笔记还是聚合查询,以下是本节目录:
去重统计,就是统计某个字段的值,去重后的数量。
先导入如下数据:
PUT /exam/_doc/1
{
"name" : "hunter",
"grade": 60
}
PUT /exam/_doc/2
{
"name" : "paul",
"grade": 80
}
PUT /exam/_doc/3
{
"name" : "jack",
"grade": 90
}
PUT /exam/_doc/4
{
"name" : "tom",
"grade": 90
}
执行下面的语句查询:
GET /exam/_search
{
"size": 0,
"aggs": {
"grade_dictinct_count": {
"cardinality": {
"field": "grade"
}
}
}
}
返回的结果主体:
"aggregations" : {
"grade_dictinct_count" : {
"value" : 3
}
}
因为在导入的数据中有两个 grade 是一样的值,所以返回的统计的去重后的数是 3
对应于 MySQL 中的语法是:
SELECT COUNT(DISTINCT grade) FROM table_name;
对数据进行一个简单的统计,一次性返回 总数、最大值、最小值、平均值、总和。
使用方法如下:
GET /bank/_search
{
"size": 0,
"aggs": {
"age_stats": {
"stats": {
"field": "age"
}
}
}
}
返回的结果:
"aggregations" : {
"age_stats" : {
"count" : 1000,
"min" : 20.0,
"max" : 40.0,
"avg" : 30.171,
"sum" : 30171.0
}
}
使用脚本:
也可以通过使用脚本的方式得到上面的结果:
GET /bank/_search
{
"size": 0,
"aggs": {
"agg_stats": {
"stats": {
"script": {
"lang": "painless",
"source": "doc['age'].value"
}
}
}
}
}
结果:
"aggregations" : {
"agg_stats" : {
"count" : 1000,
"min" : 20.0,
"max" : 40.0,
"avg" : 30.171,
"sum" : 30171.0
}
}
对返回的结果进行二次运算:
对返回的结果可以进行二次计算,实现比如对数据进行修正的功能
GET /bank/_search
{
"size": 0,
"aggs": {
"agg_stats": {
"stats": {
"field": "age",
"script": {
"lang": "painless",
"source": "_value * params.correction",
"params": {
"correction": 1.2
}
}
}
}
}
}
返回结果:
"aggregations" : {
"agg_stats" : {
"count" : 1000,
"min" : 24.0,
"max" : 48.0,
"avg" : 36.2052,
"sum" : 36205.2
}
}
可以看到,除了总数 count 没有变化,最大值最小值等,都在原基础上乘以; 1.2。
使用这个查询方式会返回各百分位数据的值。
比如 age 这个字段,按照大小排序,在 99% 的地方的值是 40,使用方法如下:
GET /bank/_search
{
"size": 0,
"aggs": {
"age_percentiles": {
"percentiles": {
"field": "age"
}
}
}
}
返回结果是:
"aggregations" : {
"age_percentiles" : {
"values" : {
"1.0" : 20.0,
"5.0" : 21.0,
"25.0" : 25.0,
"50.0" : 31.0,
"75.0" : 35.0,
"95.0" : 39.0,
"99.0" : 40.0
}
}
}
结果会默认给定1, 5, 25, 50, 75, 95, 99 这几个百分位的值。
也可以自定义几个百分位:
GET /bank/_search
{
"size": 0,
"aggs": {
"age_percentiles": {
"percentiles": {
"field": "age",
"percents": [
1,
50,
95,
99,
99.5
]
}
}
}
}
就能返回自定的这些百分位的值。
前面返回的结果都是 百分位:age的值 我们也可以设置成 key-value 的形式,把 keyed 参数的值设置成 false 即可。
GET /bank/_search
{
"size": 0,
"aggs": {
"age_percentiles": {
"percentiles": {
"field": "age",
"keyed": false,
"percents": [
95,
99
]
}
}
}
}
值的反查 percentile_ranks:
前面我们是根据百分位去获取值,我们也可以根据值来获取所处的百分位,使用参数 percentile_ranks。
GET /bank/_search
{
"size": 0,
"aggs": {
"age_percent_ranks": {
"percentile_ranks": {
"field": "age",
"values": [
35,
37,
40
]
}
}
}
}
返回结果:
"aggregations" : {
"age_percent_ranks" : {
"values" : {
"35.0" : 75.5,
"37.0" : 85.3,
"40.0" : 100.0
}
}
}
表示 age 值为 35、37、40 的分别处在数据里的这几个百分位。
为了验证方便,我们还是用前面导入的 exam 这个 index。
对 name 这个字段进行统计,可以返回每条数据中 name 字段的最大长度,最小长度,平均长度等值:
使用方法如下:
GET /exam/_search
{
"size": 0,
"aggs": {
"message_stats": {
"string_stats": {
"field": "name.keyword"
}
}
}
}
设置 show_distribution 字段为 true 可以把字母统计的结果返回,使用方法如下:
GET /exam/_search
{
"size": 0,
"aggs": {
"name_stats": {
"string_stats": {
"field": "name.keyword",
"show_distribution": true
}
}
}
}
返回结果如下:
"aggregations" : {
"name_stats" : {
"count" : 4,
"min_length" : 3,
"max_length" : 6,
"avg_length" : 4.25,
"entropy" : 3.7345216647797517,
"distribution" : {
"a" : 0.11764705882352941,
"t" : 0.11764705882352941,
"u" : 0.11764705882352941,
"c" : 0.058823529411764705,
"e" : 0.058823529411764705,
"h" : 0.058823529411764705,
"j" : 0.058823529411764705,
"k" : 0.058823529411764705,
"l" : 0.058823529411764705,
"m" : 0.058823529411764705,
"n" : 0.058823529411764705,
"o" : 0.058823529411764705,
"p" : 0.058823529411764705,
"r" : 0.058823529411764705
}
}
}
以下是两种使用 script 的方法运行:
GET /exam/_search
{
"size": 0,
"aggs": {
"name_stats": {
"string_stats": {
"script": {
"lang": "painless",
"source": "doc['name.keyword'].value"
},
"show_distribution": true
}
}
}
}
GET /exam/_search
{
"size": 0,
"aggs": {
"name_stats": {
"string_stats": {
"field": "name.keyword",
"script": {
"lang": "painless",
"source": "params.prefix + _value",
"params": {
"prefix": "name: "
}
}
}
}
}
}