大师兄的数据分析学习笔记(三):探索性数据分析(二)

大师兄的数据分析学习笔记(二):探索性数据分析(一)
大师兄的数据分析学习笔记(四):探索性数据分析(三)

三、单因子与可视化

3. 偏态与峰度
3.1 偏态系数
  • 偏态系数是指对数据分布对称性的测度。
  • 对称性分布数据的中位数均值应该是非常接近或相等的;
  • 换而言之,偏态系数就是计算偏态数据中位数均值之间的关系。
  • 偏态系数公式:
  • 中等偏态
  • 对称,无偏态
  • 右偏, 左偏
>>>import pandas as pd
>>>test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>test_data = pd.Series(test_data)
>>>skewness = test_data.skew()
>>>print('偏态系数:',skewness)
偏态系数: 1.2150779271256849
3.3 峰态系数
  • 峰态系数是对数据分布集中强度的衡量。
  • 公式:
  • 正态分布的峰态系数为3,如果一个数据的峰态系数小于1或大于5,则可以断定不是正态分布。
  • K>0为尖峰分布。
  • K<0为偏平分布。
>>>import pandas as pd
>>>test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>test_data = pd.Series(test_data)
>>>kurtosis = test_data.kurt()
>>>print(kurtosis)
0.6895144727113385
4. 数据分布简介
4.1 正态分布
  • 统计学中常见的连续概率分布。
  • 概率密度函数:
  • 期望:
  • 方差:
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>from scipy import stats as ss

>>>mean,var,skew,kurt = ss.norm.stats(moments="mvsk")
>>>print(f"均值:{mean}")
>>>print(f"方差:{var}")
>>>print(f"偏态系数:{skew}")
>>>print(f"峰态系数:{kurt}")
均值:0.0
方差:1.0
偏态系数:0.0
峰态系数:0.0

>>>fig,ax = plt.subplots(1,1)
>>>x = np.linspace(ss.norm.ppf(0.01),ss.norm.ppf(0.99),100)
>>>ax.plot(x,ss.norm.pdf(x),label="norm pdf")
>>>ax.legend()
>>>plt.show()
4.2 卡方分布
  • k个相互独立的随机变量 ,均服从标准正态分布(均值为0,方差为1),则这k个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
  • 卡方分布可以用来检验模型的适合性和变量的独立性等。
  • 数学定义:
  • ;
  • ;
  • ~ ~
  • 概率密度函数:
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>import random
>>>from scipy import stats as ss

>>>x = np.linspace(0,20,100)
>>>for i in range(5):
>>>    plt.plot(x,ss.chi2.pdf(x,df=random.randint(1,10)),label=f"df{i+1}")
>>>plt.legend()
>>>plt.show()
4.3 t-分布
  • t-分布是指正态分布的一个随机变量除以一个服从卡方分布的变量,用于根据小样本来估计呈正态分布且方差未知的总体的均值。
  • 公式:
  • 概率密度函数:
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>from scipy import stats as ss

>>>x = np.linspace(-3,3,100)
>>>plt.plot(x,ss.t.pdf(x,1),label='df=1')
>>>plt.plot(x,ss.t.pdf(x,100),label='df=100')
>>>plt.plot(x[::5],ss.norm.pdf(x[::5]),'kx',label='normal')
>>>plt.legend()
>>>plt.show()
4.4 f-分布
  • f分布是由构成两个服从卡方分布的随机变量的比构成,常被用于似然比检验。
  • 如果随机变量有参数为 ,写作:~。
  • 概率密度函数:
>>>import matplotlib.pyplot as plt
>>>from scipy import stats as ss

>>>x = []
>>>count = 0
>>>for i in range(50):
>>>    count = round(count+0.1,2)
>>>    x.append(count)
>>>plt.plot(x,ss.f.pdf(x,20,20),label='df=f(x,20,20)')
>>>plt.plot(x,ss.f.pdf(x,10,50),label='df=f(x,10,5)')
>>>plt.plot(x,ss.f.pdf(x,100,100),label='df=f(x,100,100)')
>>>plt.legend()
>>>plt.show()
5. 抽样理论
5.1 抽样方式
抽样类型 介绍
简单随机抽样 当总体个数较少时,设一个总体个数为N,如果通过逐个抽取的方法抽取一个样本,且每次抽取时,每个个体被抽到的概率相等,这样的抽样方法为简单随机取样。
系统抽样 当总体的个数比较多的时候,首先把总体分成均衡的几部分,然后按照预先定的规则,从每一个部分中抽取一些个体,得到所需要的样本,这样的取样方法叫做系统抽样。
分层抽样 取样时,将总体分成互不交叉的层,然后按照一定的比例,从各层中独立抽取一定数量的个体,得到所需样本,这样的抽样方法为分层取样。
整群抽样 整群取样又称聚类抽样。是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为取样单位抽取样本的一种抽样方式。
多段抽样 多段随机抽样,就是把从调查总体中抽取样本的过程,分成两个或两个以上阶段进行的抽样方法。
PPS抽样 即概率与元素的规模大小成比例的抽样。其原理可以通俗的理解成以通过阶段性的不等概率抽样来换取最终的、总体的等概率抽样的方法。
户内抽样 从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的过程。
偶遇抽样 是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象的方法。
判断抽样 调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法。
定额抽样 依据那些有可能影响研究变量的各种因素对总体分层,并找出具有各种不同特征的元素在总体中所占的比例。然后依据这种划分以及各类成员的比例去选择符合要求的对象的方法。
雪球抽样 当无法了解总体情况时,可以从总体中少数成员入手,向他们询问其他符合条件的人,再去找那些人并再询问他们知道的人。如同滚雪球一样。
图像抽样 在图像区域的一些特定位置上取出图像的亮度值(或色度值),以此作为原图像的一种替代,这一过程就称作图像的抽样,而每一个抽样的位置称为抽样点,该点的亮度值(或色度值)就是抽样值 。
5.2 抽样误差与精度

(1) 抽样平均误差计算公式:

  • 重复抽样:
  • 不重复抽样:
  • 假设对男学生体重进行抽样,共有学生2000人,男生平均体重70公斤,标准差15公斤,95.45%概率保证,估计平均重量的误差值:
>>>import math

>>>n = 2000
>>>d = 15
>>>m = round(math.sqrt((d^2)/n),2)
>>>print(f"平均重量误差值为{m}公斤")
平均重量误差值为0.08

(2) 估计总体时抽样数目的公式:

  • 重复抽样:
  • 不重复抽样:
  • 假设对男学生体重进行抽样,共有学生2000人,标准差15公斤,误差不超过0.08公斤,95.45%概率保证,估计平均重量,需要多少学生样本:
>>>import math

>>>m = 0.08
>>>d = 15
>>>Z = 2
>>>N = 2000
>>>n = (N*Z*math.pow(d,2))/(1000*math.pow(m,2)+Z*math.pow(d,2))
>>>print(f"需要{n}个样本。")
需要1971.9544259421561个样本。

你可能感兴趣的:(大师兄的数据分析学习笔记(三):探索性数据分析(二))