卡方分布

卡方分布是抽样分布的一种。抽样分布其实与概率论中的大数定律有密切的关系。当关注的对象的概率不可知,意味着只知道数据,不知道其内在规律;另一方面,关注的对象是可以分解成多种因素的组合时,就引入了抽样分布。抽样分布是描述从多个随机变量中抽取数据并且加以组合后,形成的规律。基本的抽样分布有三个:x^2(卡方)分布、F分布、t分布。本文介绍卡方分布。
设随机变量X_1,X_2,⋯X_n相互独立,都服从N(0,1),则称
在这里插入图片描述
服从自由度为n的 x^2 (卡方)分布,记为x^2 ~x^2(n)(下面直接用卡方分布来代替)。自由度指包含的独立变量的个数。卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,卡方分布近似为正态分布。
概率密度函数为:
卡方分布_第1张图片
另外一张图来展现卡方分布的概率密度函数和分布函数的规律。
卡方分布_第2张图片
(注:图像来自网络)
因为卡方分布也是一种概率分布,所以概率密度函数和分布函数的含义与一般的概率密度函数和分布函数并无不同。由概率值等于概率密度函数所覆盖区域的面积(建议结合坐标图来理解),可以推导出一个概念:上∝分位数。
给定∝,0<∝<1,称满足条件p(x2>x_n2 (n))=∝的点,x_n^2 (n)称为上∝分位数。这个概念在区间估计、假设检验和方差分析等常常使用,是度量基于卡方分布的概率值。
x^2 (卡方)分布数学期望 E(x^2) =n,方差D(x^2)=2n 。
在使用卡方分布的时候,需要关注的是卡方分布描述独立正态分布的平方之和,而在两种场合之下(简单看是两种),平方和会出现且需要度量:
1、样本方差
以单个正态总体的抽样分布为例:设总体X~N(μ,σ^2),X_1,X_2,⋯X_n是样本。样本均值
在这里插入图片描述
样本方差
在这里插入图片描述
则有
在这里插入图片描述
此处省略证明。通过这个定理,可以通过样本方差对于总体方差构建枢轴量,进行区间估计,和操作假设检验等。
2、误差平方和
以拟合优度检验为例。拟合优度检验的思路是预先假定总体服从某种分布β,现在只有总体中的样本。将总体映射到数轴上,并将总体的值域分解成k个两两不相交的子集A_1,A_2,…A_k。比较在这些子集中,样本的频数和β下的理论频数做比较。使用误差平方和来度量,构造统计量
在这里插入图片描述
服从自由度为(k-1)的卡方分布。此处省略证明。在方差分析和回归分析等需要度量误差的地方,常常会用到卡方分布。

你可能感兴趣的:(统计学)