直方图(Histogram)的统计说明

a “histogram” refers to a graphical representation of data that displays the frequencies or counts of different values or ranges of values. It is a helpful tool for visualizing and analyzing a dataset’s distribution or the frequency of occurrence of different variables. In a histogram, the x-axis represents the values or ranges, while the y-axis represents the frequencies or counts. Each bar or bin on the graph represents a category or range, and the height of the bar represents the frequency or count of that category. Histograms are commonly used in various fields such as statistics, data analysis, and quality control.

直方图的统计方式

直方图是一种用于可视化数据分布的图表。它将数据划分为不同的区间(也称为bin或箱子),然后计算每个区间内数据的频数或频率,并以矩形的方式表示。

直方图的横轴表示数据的范围或者分组间隔,纵轴表示对应范围或间隔内的数据频数或频率。每个矩形的宽度表示数据的范围或间隔的大小,而矩形的高度表示对应范围或间隔内数据的频数或频率。

直方图可以帮助我们理解数据的分布情况,包括数据的集中趋势、离散程度和异常值。例如,通过观察直方图,我们可以判断数据是否服从正态分布、是否存在偏态或者尖峰态等特征。

绘制直方图的步骤通常包括:

  1. 将数据进行离散化,将数据分成多个区间。
  2. 对每个区间内的数据进行计数或计算频率。
  3. 将每个区间的频数或频率转化为矩形的高度。
  4. 在坐标轴上绘制各个矩形,并设置合适的宽度和间距。

直方图的优点在于它简单、直观,并且可以显示出数据的整体分布情况。然而,直方图也有一些限制,比如它对数据的区间选择较为敏感,不同的区间选择可能会导致不同的分布形态的展现。

多少个请求超过了100ms的时间

类似地,在第二个案例中,如果我们想要计算99%请求完成时间的延迟,我们可以使用分位数或百分位数。具体步骤如下:

将所有请求的完成时间按从小到大的顺序排序。
计算分位点,例如找到第99%的请求完成时间对应的延迟。
在Prometheus中,可以使用query表达式提取某个所需分位数的值。例如,通过查询语句histogram_quantile(0.99, my_histogram),可以计算出99%的请求完成时间的延迟。

计算99%请求完成时间的延迟

当使用直方图来回答类似于"我有多少个请求超过了100ms的时间?"这样的问题时,我们可以根据请求的延迟时间将数据分成不同的区间(桶),并计算每个区间内的请求数。其中,我们需要设置一个以100ms为边界的桶来统计超过100ms的请求数量。

具体步骤如下:

定义一组连续的桶,每个桶的范围按需设置。可以选择设置一个边界为100ms的桶,以及其他边界为更大延迟范围的桶,例如200ms、500ms、1s等。
遍历请求数据,将每个请求根据其延迟时间放入相应的桶中。
统计每个桶内的请求数量。
在直方图中绘制每个桶的矩形,其中矩形的高度表示该桶内请求的数量。
这样,通过观察直方图,我们可以直观地了解超过100ms延迟的请求数量,直方图的高度表示每个桶内请求的数量。

(histogram_quantile(0.99, my_histogram))

histogram_quantile(0.99, my_histogram) 是一个用于计算直方图中给定分位数的算法。

直方图是一种用于统计数据分布的可视化工具,它将数据划分为一系列的区间,并统计各个区间中的数据数量。直方图可以用于了解数据的分布情况,包括数据的集中程度和离散程度。

histogram_quantile 用于计算直方图中给定分位数对应的数值。分位数是描述数据分布的重要指标之一,它表示一个值将数据集划分为相应分位比例的数据。例如, 0.99 的分位数表示有 99% 的数据小于等于该值。

具体算法如下:

  1. 首先,将直方图中的区间按照左边界从小到大排序。
  2. 然后,计算每个区间的累积频率,即该区间及其前面的所有区间中的数据总数量。
  3. 接着,找到最小的累积频率大于等于目标分位数的区间。
  4. 最后,通过线性插值在该区间内计算出分位数对应的数值。

需要注意的是,如果目标分位数小于最小的累积频率或大于最大的累积频率,算法将会返回结果超出区间范围的数值。

以上是对 histogram_quantile 算法的简要说明。

99分位算法

假设有如下的直方图和数据集:

直方图中的区间边界:[0, 10, 20, 30, 40]

各区间的数据数量:[5, 10, 15, 20]

数据集:[5, 15, 18, 22, 28, 31, 35, 38, 39, 40]

我们将使用histogram_quantile(0.99, my_histogram)来计算数据集的第99个百分位数。

首先,将区间边界从小到大排序:[0, 10, 20, 30, 40]

然后,计算每个区间的累积频率:

第一个区间:5个数据点 第二个区间:5 + 10 = 15个数据点 第三个区间:15 + 15 = 30个数据点 第四个区间:30 + 20 = 50个数据点

选择累积频率大于等于0.99的最小区间,即第三个区间。

在第三个区间内,我们计算线性插值:

最小边界:20 最大边界:30 最小累积频率:15 最大累积频率:30 目标累积频率:0.99

根据线性插值的公式,在第三个区间内计算分位数对应的数值:

value = 最小边界 + (目标累积频率 - 最小累积频率) * (最大边界 - 最小边界) / (最大累积频率 - 最小累积频率)

value = 20 + (0.99 - 15) * (30 - 20) / (30 - 15)

计算得到 value = 28.7

所以,对于给定的数据集,histogram_quantile(0.99, my_histogram) 的计算结果为 28.7。

线性插值的公式

在Prometheus中,histogram_quantile(0.99, my_histogram) 是一个内置的查询函数,用于计算直方图的分位数。

该函数的使用方式为:

histogram_quantile(目标分位数, 直方图名称)

其中,目标分位数是一个介于0和1之间的小数,表示所要计算的分位数。直方图名称是在Prometheus中定义的直方图指标名称。

具体的使用方法可以参考以下示例:

示例1:计算直方图中的第99个百分位数

histogram_quantile(0.99, my_histogram)

示例2:与其他查询结合使用

sum(rate(http_request_duration_seconds_bucket{service=“example”}[5m])) by (le) / sum(rate(http_request_duration_seconds_count{service=“example”}[5m])) by (le) * 100

这个查询用于计算HTTP请求延迟的直方图,并通过histogram_quantile函数计算出95百分位数。

你可能感兴趣的:(数据,(Data),New,Developer,算法,数据)