统计学 箱线图、离差平方和、方差、标准差和变异系数

目录

  • 基本概念
  • python 计算分位数
  • 扩展与参考链接

基本概念

箱线图是描述数据分布情况一种图形,需要知道以下几个概念:

  1. 首先将数据串从小到大排序;
  2. 上界,上四分位数(Q3),中位数(Q2),下四分位数(Q1),下界分别在数字串的那个位置(上界处于最大值处可能是因为笛卡尔坐标系的方向);
  3. 从箱线图中能看出数据分布情况;
  4. 中度异常点和极度异常点;
  5. 上四分位数(Q3),中位数(Q2),上四分位数(Q1)用公式计算出在数据串中的位置。

离差平方和、方差、标准差和变异系数基本原理和计算方式。

统计学 箱线图、离差平方和、方差、标准差和变异系数_第1张图片
统计学 箱线图、离差平方和、方差、标准差和变异系数_第2张图片
协方差
用来表示随机变量的相关性。
如何通俗地解释协方差

补充
在一本书上看到了从统计学角度说明中位数和四分位数概念:
中位数是随机变量值分布的中点。
统计学 箱线图、离差平方和、方差、标准差和变异系数_第3张图片

python 计算分位数

数据类型 函数 示例
pandas quantile data_df.quantile(0.4)
numpy percentile np.percentile(data_np, 50)
import pandas as pd

data_df = pd.DataFrame([1, 2, 2, 3, 3, 6, 7, 10, 11, 15, 22])

print(data_df.quantile(1 / 2))  # 6.0
print(data_df.quantile(1 / 4))  # 2.5
print(data_df.quantile(3 / 4))  # 10.5

import numpy as np

data_np = np.array([1, 2, 2, 3, 3, 6, 7, 10, 11, 15, 22])

print(np.percentile(data_np, 50))  # 6.0
print(np.percentile(data_np, 25))  # 2.5
print(np.percentile(data_np, 75))  # 10.5

参考链接
python计算分位数

扩展与参考链接

【Python】 标准差计算(std)
Python:使用pandas和numpy计算标准差的区别
如何计算四分位数值&应用
怎么计算一组数据的波动_数据分析(一):数据描述统计

你可能感兴趣的:(数据挖掘,机器学习,数据分析)