抽样分布基础

抽样分布与概率分布比较

  • 相同点:都是概率分布
  • 不同点:
    • 分类角度不同,常见的概率分布是从分布形态角度出发进行分类的,而抽样分布则是从参数角度进行分类
    • 抽样分布一般表现为分布族,随着决定参数的不同,抽样分布的形态也会随之变化

Z分布

  • 背景:样本均值推断总体均值是最重要的推断统计学内容。样本均值的抽样分布是样本均值推断总体均值的桥梁。样本均值的抽样分布有一个重要的特性,我们称之为中心极限定理,即任意分布的总体,当样本容量n>=30时,均值的抽样分布同样服从正态分布
  • 普通正态分布可以转化为标准正态分布,我们将转化成标准正态分布的均值抽样分布成为Z分布(一般以字母命名的分布就是抽样分布)
  • 两种满足Z分布的适用条件:一是由正态分布总体的样本组成的均值抽样分布,样本容量没有要求;第二种情况是由来自任意分布总体的大样本组成的均值抽样分布,要求样本容量大于或等于30

T分布

  • 背景:Z分布只能覆盖部分均值抽样分布的情况,它特别适合总体标准差一直的正态分布总体或样本容量大于或等于30的任意分布总体的抽样情况。对于总体标准差未知的情况,我们引入另一个重要的均值抽样分布类型-T分布
  • T分布曲线呈倒置的钟形,并且关于y=0的纵轴对称,分布曲线从负无穷到正无穷大无限延伸。当自由度等于或大于30时,T分布曲线几乎与标准正态分布曲线重合。
  • 问题:据均值抽样分布使用条件表2,总体服从正态分布,且总体标准差未知,样本容量大于或等于30时,为什么样本均值的抽样分布不仅服从T分布,而且还可以用Z分布来近似表达?

卡方分布

  • 卡方统计量时一个随机变量,它能够表明样本方差和总体方差的比值关系。卡方统计量决定的抽样分布就是卡方分布
  • 卡方分布和T分布一样,是一个概率分布族,对每一个自由度都有一个具体的卡方分布于其对应。卡方分布是不对称的,长尾拖在右边。随着自由度的增加,卡方分布逐渐变成单峰,且越来越堆成,但不是关于0对称,而是关于自由度对称。

F分布

  • F统计量时由两个独立的卡方统计量被各自的自由度相除后的比,所以F分布的分布曲线与卡方分布曲线相似。随着自由度的增加,F分布的分布曲线也越来越对称,且对称的中点为1.
  • F分布的应用:F分布能够用来推断两个总体方差之间的比值关系,是后面的方差分析的理论基础。

练手题目

  • 按照港口分类,求年龄、性别等变量的统计量,如均值、标准差等
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import matplotlib
# matplotlib.style.use("ggplot")
%matplotlib inline

df=pd.read_csv('file_path')
df=df.dropna(axis=0, how='any')
#按照港口对数据进行分布
grouped=df.groupby('Embarked')
#显示分组效果
grouped.groups
grouped.get_group('S').head(5)
#分组统计变量的统计量
grouped['Fare'].describe()
  • 画出价格的分布图像,验证价格属于何种分布(卡方,正态还是T分布)
    • 这里的问题是,更像是验证价格属于哪种概率分布
    • 但是卡方分布和T分布似乎又专指抽样分布,暂时没摸清意图
  • 按照港口分类,验证S和Q的价格差是否符合某种分布
    • 同上一题的问题,待进一步确认抽样分布和常见概率分布的区别

你可能感兴趣的:(抽样分布基础)