数理统计与描述性分析

数理统计与描述性分析

基本概念

  • 总体 个体 样本 抽样(每次抽取必须是随机的、独立的,才能更好地反映总体情况)简单随机抽样(每个个体被抽到的机会是均等的,x1、x2、x3···xi互相独立,且xi与总体X同分布)
  • 样本具有两重性,在一次具体的抽样后样本是一组确定的数值,但是由于抽样是随机的,在一般叙述当中样本也是一组随机变量。
  • 样本作为随机变量,有一定的概率分布,称为样本分布,取决于总体的性质和样本的性质。

统计推断

收集样本——计算出样本统计量——处理研究问题
统计量的分布为抽样分布

常用统计量

  • 样本均值
  • 样本方差S2
  • k阶样本原点矩(当K=1的时候等于样本均值)
  • k阶样本中心矩(当样本量足够大时,1/n与1/(n-1)相等,通常用样本的k阶中心矩估计总体分布的k阶中心矩)
    数理统计与描述性分析_第1张图片
  • 顺序统计量(按从小到大的顺序排列,最小顺序统计量、最大顺序统计量、第r个顺序统计量)

描述性统计

  • 平均数、中位数、频数、众数
  • 百分位数
  • 方差、标准差、极差、变异系数(标准离差率、单位风险,可以消除测量尺度和量纲的问题,标准差/均值)、四分位差(Q3-Q1)
import numpy as np
X=[2,2,4,5,6,8,10]
X_mean=np.mean(X)#均值
X_med=np.median(X)#中位数
print("均值为:",X_mean)
print("中位数为:",X_med)
from scipy import stats
X_m=stats.mode(X)[0][0]
print("众数为:",X_m)
import pandas as pd
ser=pd.Series(X)
X_m1=ser.mode()
print("众数为:",X_m1)
import numpy as np
X=[2,2,4,5,6,8,10]
X_var=np.var(X)
X_std=np.sqrt(X_var)
X_std1=np.std(X)
X_mean=np.mean(X)
X_cv=X_std1/X_mean
print("方差",X_var)
print("标准差",X_std1)
print("变异系数",X_cv)
  • 分布特征(描述一个变量,不仅需要说明它能够取哪些值,还要关心它取这些值的概率)
  • 概率函数、分布函数
  • 正态分布(高斯分布)
  • 偏度(数据分布的非对称程度,密度函数曲线尾部的相对长度,右侧更分散偏度为正,左侧更分散偏度为负。)
    bs<0,负偏离,左偏态,均值左边数据较多,左侧尾部拖得很长
    bs>0,正偏离,右偏态,均值右边数据较少,右侧尾部拖得很长
  • 峰度(峰值高低,峰部尖度,与正态分布相比,如果峰度大于3,峰的形状比较尖。刻画了数据的集中和分散程度。)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data=list(np.random.randn(10000))
plt.hist(data,10000,facecolor='g',alpha=0.5)
'''
plt.hist(arr,bins=10,facecolor,edgecolor,alpha.histtype='bar')
'''
plt.show()
s=pd.Series(data)
print("偏度系数:",s.skew())
print("峰度系数:",s.kurt())

你可能感兴趣的:(数理统计与描述性分析)