32统计基础- 分位数和百分位数

我们共检测了15个基因的表达。这是中位数,50%的基因表达量较高,50%的基因表达量较低。中位数(median)是分位数(quantile),因为它将数据分成包含相同数量数据的组。有时,这个分位数(中位数)被标记为0.5(因为它把数据分成两半),有时它被标记为50%(因为50%的数据在它上面,50%在它下面)。中位数是4.5,因此50%的分位数是4.5。

中位数是一个分位数,因为它将数据分成大小相等的组。这被称为0.5分位数或50%分位数。无论哪种表示法是“正确的”,您都可能看到它们。

image-20201228131525947.png

现在我们又添加了两条线。连同第一条线,他们把数据分成4个大小相同的组。这些新线是分位数,因为它们将数据分成了同样大小的组。有0.25或25%分位数,因为有四分之一(或25%)的点小于它。0.75或75%分位数,因为四分之三(或75%)的点都小于它。

通常,分位数只是将数据划分为同等大小的组的行。这是定义。从定义上讲,百分位数(percentiles)只是将数据分成100个相同大小的组的分位数。然而,在实践中,这个术语要灵活得多。即使这个数据集不够大,不能分成100个组,我们仍然将中位数(或50%分位数)称为50百分位数。

image-20201228132703177.png

通常,当我们将每个数据点划分到它自己的组时,会使用“分位数”和“百分位数”这两个术语。由于没有任何值小于底部的这个值,所以它被称为0%分位数,或第0个百分位数。

image-20201228132846121.png

到目前为止,我已经向你们展示了一种计算分位数百分位数的方法,然而还有更多的方法。R的quantile()函数提供了9种不同的方法来计算分位数,每一种方法都会产生稍微不同的结果。这意味着,如果你的数据集很小,不要在分位数中存放太多数据,因为它们会在不同方法(和不同样本)之间发生很大变化。然而,当您的数据集很大时,所有的方法都会给出相当相似的结果。

你可能感兴趣的:(32统计基础- 分位数和百分位数)