Elasticsearch 聚合分析详解

说明


聚合分析:英文为Aggregation,是es除搜索功能外提供的针对es数据做统计分析的功能。

  • 功能丰富:提供Bucket、Metric、Pipeline等多种分析方式,可以满足大部分的分析需求
  • 实时性高:所有的计算结果都是即时返回的,而hadoop等大数据系统一般都是T+1级别的。

为了便于理解,es将聚合分析主要分为如下4类:

  • Bucket:分桶类型,类似SQL中的GROUP BY语法
  • Metric:指标分析类型,如计算最大值、最小值、平均值等等
  • Pipeline:管道分析类型,基于上一级的聚合分析结果进行在分析
  • Matrix:矩阵分析类型

Metric聚合分析


Metric聚合分析分为单值分析和多值分析两类:

  • 单值分析,只输出一个分析结果
min,max,avg,sum
cardinality
  • 多值分析,输出多个分析结果
stats,extended stats
percentile,percentile rank
top hits 

min,max,avg,sum


样例:

GET myindex/_search
{
  "size": 0,   #不返回文档列表
  "aggs": {
    "min_age": {
      "min": {    #关键词
        "field": "age"
      }
    }
  }
}
#注意我们将size设置成0,这样我们就可以只看到聚合结果了,而不会显示命中的结果

#一次返回多个聚合结果 (并列关系,不是子聚合)
GET myindex/_search
{
  "size": 0,
  "aggs": {
    "min_age": {
      "min": {
        "field": "age"
      }
    },
    "avg_age":{
      "avg":{
        "field":"age"
      }
    },
    "max_age":{
      "max":{
        "field":"age"
      }
    }
  }
}   

cardinality


ardinality:意为集合的势,或者基数,是指不同数值的个数,类似SQL中的distinct count概念。
样例:

GET /bank/account/_search
{
  "size":0,
  "aggs":{
    "count_of_genders":{
      "cardinality": {
        "field": "gender.keyword"
      }
    }
  }
}

stats,extended stats


  • stats:返回一系列数值类型的统计值,包含min、max、avg、sumcount
  • extended stats:对stats的扩展,包含了更多的统计数据,比如方差、标准差等

样例:

GET bank/account/_search
{
  "size": 0,
  "aggs": {
    "stats_age": {
      "stats": {
        "field": "age"
      }
    }
  }
}

Percentile,Percentile Rank


  • Percentile: 百分位数统计。
  • Percentile Rank: 百分位数统计

样例:

#前者
GET bank/account/_search
{
  "size": 0,
  "aggs": {
    "per_age": {
      "percentiles": {
        "field": "age",
        "percents": [
          1,
          5,
          25,
          50,
          75,
          95,
          99
        ]
      }
    }
  }
}
#后者
GET bank/account/_search
{
  "size": 0,
  "aggs": {
    "per_age": {
      "percentile_ranks": {
        "field": "age",
        "values": [
          20,
          35,
          40
        ]
      }
    }
  }
} 

Top Hits


Top Hits: 一般用于分桶后获取该桶内匹配的顶部文档列表,即详情数据
例如,按照性别进行分组,并对每组中按照balance进行排序(子聚合)

样例:

GET bank/account/_search
{
  "size": 0,
  "aggs": {
    "group_by_gender": {
      "terms": {
        "field": "gender.keyword"
      },
      "aggs": {
        "top_employee": {
          "top_hits": {
            "size": 2,
            "_source": ["gender","balance"], 
            "sort": [
              {
                "balance": {
                  "order": "desc"
                }
              }
              ]
          }
        }
      }
    }
  }
}

Bucket聚合分析


Bucket:意为桶,即按照一定的规则将文档分配到不同的桶中,达到分类分析的目的
Elasticsearch 聚合分析详解_第1张图片
常见的Bucket聚合分析如下:

  • Terms
  • Range
  • Date Range
  • Histogram
  • Date Histogram

Terms


最简单的分桶策略,直接按照term来分桶,如果是text类型,则按照分词后的结果分桶
样例:

 GET /bank/account/_search
{
  "size":0,
  "aggs": {
    "group_by_gender": {
      "terms": {
        "field": "gender.keyword"
      }
    }
  }
}   

返回结果示例:
Elasticsearch 聚合分析详解_第2张图片

Range,Date Range


  • Range: 通过制定数值的范围来设定分桶规则
  • Date Range: 通过指定日期的范围来设定分桶规则

示例:

#Range
GET  /bank/account/_search
{
  "size": 0,
  "aggs": {
    "range_age": {
      "range": {
        "field": "age",
        "ranges": [
          {
            "to": 25
          },
          {
            "from": 25,
            "to": 35
          },
          {
            "from": 35
          }
        ]
      }
    }
  }
}   
#Date Range:
GET myindex/_search
{
  "size": 0,
  "aggs": {
    "data_range": {
      "date_range": {
        "field": "",
        "format": "MM-yyy", 
        "ranges": [
          {
            "from": "now-10d/d",
            "to": "now"
          }
        ]
      }
    }
  }
}

Historgram,Date Histogram


  • Historgram: 直方图,以固定间隔的策略来分割数据
  • Date Histogram: 针对日期的直方图或者柱状图,是时序分析中常用的聚合分析类型

示例:

#Historgram
GET bank/account/_search
{
  "size": 0,
  "aggs": {
    "hist_age": {
      "histogram": {
        "field": "age",
        "interval": 10,
        "extended_bounds":{
          "min":10,
          "max":50
        }
      }
    }
  }
}   
#Date Histogram
GET myindex/_search
{
  "size": 0,
  "aggs": {
    "by_year": {
      "date_histogram": {
        "field": "date",
        "interval": "month"
        , "format": "yyyy-MM-dd"
      }
    }
  }
}

Bucket + Metric聚合分析


Bucket聚合分析允许通过子分析来进一步进行分析,该分析可以是Bucket也可以是Metric,这也使得es的聚合分析能力变得异常强大

(1)分桶之后在分桶

GET /bank/account/_search
{
  "size": 0,
  "aggs": {
    "group_by_gender": {
      "terms": {
        "field": "gender.keyword"
      },
      "aggs": {
        "range_age": {
          "range": {
            "field": "age",
            "ranges": [
              {
                "from": 20,
                "to": 30
              },
              {
                "from":30,
                "to":40
              }
            ]
          }
        }
      }
    }
  }
}   

(2)分桶后进行数据分析

GET /bank/account/_search
{
  "size":0,
  "aggs": {
    "group_by_gender": {
      "terms": {
        "field": "gender.keyword"
      },
      "aggs": {
        "stats_age": {
          "stats": {
            "field": "age"
          }
        }
      }
    }
  }
}

Pipeline 聚合分析


Elasticsearch 聚合分析详解_第3张图片
针对聚合分析的结果再次进行聚合分析,而且支持链式调用
Pipeline的分析结果会输出到原有结果汇总,根据输出位置的不同,分为以下两类:

  • Parent结果内嵌到现有聚合分析结果中
Derivative      导数求导
Moving Average  移动平均
Cumulative Sum  累计求和
  • Sibling结果与现有聚合分析结果同级
Max/Min/Avg/Sum Bucket
Stats/Extended Stats Bucket
Percentiles Bucket

Sibling - Min Bucket


Sibling - Min Bucket : 找出所有bucket中值最小的bucket名称和值

GET /bank/account/_search
{
  "size": 0,
  "aggs": {
    "group_by_stats": {
      "terms": {
        "field": "state.keyword"
      },
      "aggs": {
        "average_balance": {
          "avg": {
            "field": "balance"
            }
          }
        }
      },
      "min_avg_by_balance":{
        "min_bucket": {
          "buckets_path": "group_by_stats>average_balance"
        }
      }
    }
  }     

对应的还有:max_bucket/avg_bucket/sum_buctet/stats_bucket等等

Parent - Derivative


计算Bucket值的导数
示例:

GET bank/account/_search
{
  "size":0,
  "aggs": {
    "hist_city": {
      "histogram": {
        "field": "age",
        "interval": 5
      },
      "aggs":{
        "avg_balance":{
          "avg": {
            "field": "balance"
          }
        },
        "derivative_avg_balance":{
          "derivative": {
            "buckets_path": "avg_balance"
          }
        }
      }
    }
  }
}

Moving Average移动平均(moving_avg)、Cumulative Sum累计求和(cumulative_sum)的用法同derivative

聚合分析作用范围


es聚合分析默认作业范围是query的结果集,可以通过如下的方式改变其作业范围:

  • filter: 为某个聚合分析设定过滤条件,从而在不更改整体query语句的情况下修改了作用范围
  • Post_filter: 作用于文档过滤,但在聚合分析后生效
  • global:无视query过滤条件,基于全部文档进行分析

聚合分析中的排序


(一)可以使用自带的关键数据进行排序,比如:

  • _count文档数
  • _key按照key值排序

示例:

GET bank/account/_search
{
  "size":0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword",
        "size": 5,
        "order": {
          "_count": "desc"
        }
      }
    }
  }
}

(二)根据子聚合排序

GET /bank/account/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword",
        "size": 10,
        "order": {
          "avg_balance": "asc"
        }
      },
      "aggs": {
        "avg_balance": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  }
}

GET /bank/account/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword",
        "size": 10,
        "order": {
          "stats_balance.avg": "asc"
        }
      },
      "aggs": {
        "stats_balance": {
          "stats": {
            "field": "balance"
          }
        }
      }
    }
  }
}

聚合分析精准度问题


因为分片的原因,导致terms不准确,针对这个,有几个解决办法

  • 设置Shard数为1,消除数据分散的问题,但无法承载大数据量
  • 合理设置Shard_Size大小,即每次从Shard上额外多获取数据,以提升准确度

样例:

GET bank/account/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword",
        "size": 2,
        "shard_size": 10
      }
    }
  }
}  

Shard_Size大小的设定方法:

terms聚合返回结果有如下两个统计值:

  • doc_count_error_upper_bound 被遗漏的term可能的最大值
  • sum_other_doc_count 返回结果bucket的term外其他term的文档总数

设定show_term_doc_count_error可以查看每个bucket误算的最大值:

GET bank/account/_search
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state.keyword",
        "size": 2,
        "show_term_doc_count_error": true
      }
    }
  }
} 

返回结果中"doc_count_error_upper_bound": 0 : 0表示计算准确
Shard_Size默认大小如下:shard_size=(size*1.5)+10
通过调整Shard_size的大小降低doc_count_error_upper_bound来提升准确度,增大了整体的计算量,从而降低了响应时间

  • 结果是近似准确的,但不一定精准
  • 可以通过参数的调整使其结果精准,但同时也意味着更多的计算时间和更大的性能消耗

你可能感兴趣的:(Elasticsearch,ELK)