数据学习(七)-抽样分布实践

实践

import pandas as pd
import numpy as np
data=pd.read_excel('G:\Datasets\data.xlsx')
data

结果如下:
数据学习(七)-抽样分布实践_第1张图片

embark = data.groupby(['Embarked'])

embark_basic = data.groupby(['Embarked']).agg(['count','min','max','median','mean','var','std'])

age_basic = embark_basic['Age']
fare_basic = embark_basic['Fare']

age_basic 

结果如下:
数据学习(七)-抽样分布实践_第2张图片
数据学习(七)-抽样分布实践_第3张图片

# 1、 先验证价格年龄是否服从正态分布。
# 画出年龄的图像
import seaborn as sns 
import matplotlib.pyplot as plt
sns.set_palette("hls") #设置所有图的颜色,使用hls色彩空间
sns.distplot(data['Age'],color="r",bins=10,kde=True)
plt.title('Age')
plt.xlim(-10,80)
plt.grid(True)
plt.show()

结果如下:

数据学习(七)-抽样分布实践_第4张图片

# 2、验证是否服从正态分布?
#分别用kstest、shapiro、normaltest来验证分布系数
from scipy import stats
ks_test = stats.kstest(data['Age'], 'norm')
shapiro_test = stats.shapiro(data['Age'])
normaltest_test = stats.normaltest(data['Age'],axis=0)

print('ks_test:',ks_test)
print('shapiro_test:',shapiro_test)
print('normaltest_test:',normaltest_test)

结果如下:
在这里插入图片描述
由检验结果知,p <0.05,所以拒绝原假设,认为数据不服从正态分布。

# 由于p <0.05, 拒绝原假设,认为数据不服从正态分布

# 绘制拟合正态分布曲线
age = data['Age']

plt.figure()
age.plot(kind = 'kde')   #原始数据的正态分布

M_S = stats.norm.fit(age)  #正态分布拟合的平均值loc,标准差 scale
normalDistribution = stats.norm(M_S[0], M_S[1])  # 绘制拟合的正态分布图
x = np.linspace(normalDistribution.ppf(0.01), normalDistribution.ppf(0.99), 100)
plt.plot(x, normalDistribution.pdf(x), c='orange')
plt.xlabel('Age about Titanic')
plt.title('Age on NormalDistribution', size=20)
plt.legend(['age', 'NormDistribution'])

结果如下:
数据学习(七)-抽样分布实践_第5张图片

#验证是否符合T分布
np.random.seed(1)  
ks = stats.t.fit(age)
df = ks[0]
loc = ks[1]
scale = ks[2]
ks2 = stats.t.rvs(df=df, loc=loc, scale=scale, size=len(age))
stats.ks_2samp(age, ks2)

结果如下:
在这里插入图片描述
由检验结果知,p <0.05,所以拒绝原假设,认为数据不服从T分布。

# 绘制拟合的T分布图
plt.figure()
age.plot(kind = 'kde')
TDistribution = stats.t(ks[0], ks[1],ks[2]) 
x = np.linspace(TDistribution.ppf(0.01), TDistribution.ppf(0.99), 100)
plt.plot(x, TDistribution.pdf(x), c='orange')
plt.xlabel('age about Titanic')
plt.title('age on TDistribution', size=20)
plt.legend(['age', 'TDistribution'])

结果如下:
数据学习(七)-抽样分布实践_第6张图片

#验证是否符合卡方分布
chi_S = stats.chi2.fit(age)
df_chi = chi_S[0]
loc_chi = chi_S[1]
scale_chi = chi_S[2]
chi2 = stats.chi2.rvs(df=df_chi, loc=loc_chi, scale=scale_chi, size=len(age))
stats.ks_2samp(age, chi2)

结果如下:
在这里插入图片描述

# 对数据进行卡方拟合
plt.figure()
age.plot(kind = 'kde')
chiDistribution = stats.chi2(chi_S[0], chi_S[1],chi_S[2])  # 绘制拟合的正态分布图
x = np.linspace(chiDistribution.ppf(0.01), chiDistribution.ppf(0.99), 100)
plt.plot(x, chiDistribution.pdf(x), c='orange')
plt.xlabel('age about Titanic')
plt.title('age on chi-square_Distribution', size=20)
plt.legend(['age', 'chi-square_Distribution'])

结果如下:
数据学习(七)-抽样分布实践_第7张图片

你可能感兴趣的:(数据)