Task02:数理统计与描述性分析

数理统计

总体:研究对象的全体
个体:组成总体的每个基本单元

统计量与抽样

统计量是样本的某种函数
统计量的分布为抽样分布

常用的统计量

样本均值
样本方差
k阶样本原点矩
k阶样本中心矩
顺序统计量

描述性统计

数据集中趋势的度量

平均数:容易受极端值影响
中位数:不受极端值影响
众数:不受极端值影响;当数据具有明显的集中趋势时,代表性好
百分位数

import numpy as np
a=[1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean=np.mean(a)
a_med=np.median(a)
print("a的平均数:",a_mean)
from scipy import stats
#Scipy是一个高级的科学计算库,一般都是操控Numpy数组进行科学计算,
#Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理,常微积分方程求解和其他科学与工程中常用的计算
a_m1=stats.mode(a)[0][0]
print("a的众数",a_m1)
import pandas as pd
#将一维数组转成Pandas的Series,然后调用Pandas的mode()方法
ser=pd.Series(a)
a_m2=ser.mode()
print("a的众数",a_m2)

数据离散趋势的度量

方差
标准差
极差
变异系数:标准差与平均数之比
四分位差:样本上、下四分位数之差称为四分位数(半极差)

import numpy as np
a=[1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var=np.var(a)
a_std1=np.sqrt(a_var)
a_std2=np.std(a)
a_mean=np.mean(a)
a_cv=a_std2/a_mean
print("a的方差",a_var)
print("a的标准差",a_std1)
print("a的标准差",a_std2)
print("a的变异系数",a_cv)

分布特征

1.离散变量:班级人数,电脑台数
连续变量:人体测量的身高、体重
2.概率函数(概率密度函数):大量重复试验中出现的频率,它约等于事件出现的频数除以重复试验的次数。
3.分布函数(概率累计函数)
正态分布(高斯分布)
**3σ原则:**正态分布中,(μ-3σ,μ+3σ)上概率密度曲线之下的面积占总面积的99.7%。

偏度与峰度

偏度:是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。右偏为正,左侧为负。
偏度刻画的是分布函数的对称性
峰度:峰度刻画的是分布函数的集中和分散程度

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data=list(np.random.randn(10000))
#生成标准正态分布的随机数(10000个)
plt.hist(data,1000,facecolor='g',alpha=0.5)
#plt.hist(arr,bins=10,facecolor,edgecolor,alpha,histtype='bar')
#bins:直方图的柱数,可选项,默认为10
#alpha:透明度
plt.show()
s=pd.Series(data)#将数组转化为序列
print("偏度系数",s.skew())
print("峰度系数",s.kurt())

你可能感兴趣的:(Task02:数理统计与描述性分析)