数据的水平是指其取值的大小,描述的统计量主要有:平均数、中位数、分位数以及众数。
3.2 数据离散程度
数据的差异性、离散程度,描述的统计量主要由:极差、四分位差、方差、标准差以及测度相对离散程度的离散系数(标准差与平均数之比,消除数据水平高低对标准差大小的影响)。
数据的分布形状,通过直方图和茎叶图可以知道数据的分布是否对称。对于不对称的分布,偏态系数是对分布对称程度的度量,峰态系数是对峰值高低的度量(峰尖或不尖)。
偏态系数:SK= n/[(n-1)(n-2)] × Σ[(x-μ)/s]3。
如果一组数据的分布式对称的,则偏态系数为0;若偏态系数大于1或者小于-1,视为严重偏态分布,否则为中等偏态分布。其中负值是左偏(也叫负偏态分布,在分布左侧有长尾),正值表示右偏(也叫正偏态分布,在分布右侧有长尾)。
峰态系数:K= n(n+1)/[(n-1)(n-2)(n-3)] ×Σ[(x-μ)/s]4 — [3(n-1)2]/[(n-2)(n-3)]。
标准正态分布的峰态系数为0,当K > 0为尖峰分布,数据分布相对集中,否则为扁平分布。
确定数据是否来自正态分布的总体。判断方法主要由:
1)P—P图
根据观测数据的累计概率与理论分布的雷击概率的符合程度绘制。
2)Q—Q图
根据观测值的实际分位数与理论分布的分位数绘制。
3)非参数检验中的Kolmogorov-Smirnov检验
见第14章。
t分布式类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。随着自由度的增大,t分布逐渐趋于正态分布。
t = X / sqrt(Y / n),其中X~N(0,1),Y~χ2(n),且X与Y相互独立,称t服从自由度为n的t分布,记作t~t(n)。
当正态总体标准差未知时,在小样本条件下对总体均值的估计和检验要用到t分布。
χ2=Σi=1…n Xi2,其中Xi~N(0,1),称χ2~χ2(n)分布,n为自由度。
E(χ2) = n,D(χ2)= 2n。
χ2分布的形状,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称。χ2分布具有可加性(自由度之和)。
F分布通常用于比较不同总体的方差是否有显著差异。
F = (X/n1) / (Y/n2),其中X~χ2(n1),Y~χ2(n2),且X与Y相互独立,称F服从自由度为(n1,n2)的F分布,记作F~F(n1,n2)。
不论原来的总体是否服从正态分布,随着样本量的增加,样本均值的概率分布都将趋于正态分布。
样本方差服从χ2(n-1)分布。两个总体对应的样本方差之比服从F分布。
统计量的标准误差也称为标准误。
当总体标准差未知时,可以用标准误代替,这时的标准误称为估计标准误差,由于现实中总体的标准差总是未知的,因此,估计标准误差简称为标准误差。
标准误是根据原始观测值计算的,反映一组原始数据的离散程度。而标准误差是根据样本统计量计算的,反映的是统计量的离散程度。
由样本X1,X2, …, Xn计算出的统计量θ’(X1,X2, …, Xn)为统计量θ的估计量。
估计方法有矩估计和最大似然估计法。
区间估计就是用以统计量为端点的随机区间来刻画总体未知参数所在的范围。
对给定值α(0<α<1),若由来自总体X的样本X1,X2, …, Xn确定的两个统计量θ1’和θ2’(θ1’<=θ2’),对于任意θ∈Θ满足:P{θ1’<θ<θ2’}≥ 1-α,则称随机区间(θ1’,θ2’)是θ的置信水平(置信度)为1-α的置信区间。
①无偏性
指估计量抽样分布的期望值等于被估计的总体参数。
若估计量θ’=θ’(X1,X2, …, Xn)的数学期望E(θ’)存在,且对任意θ∈Θ有E(θ’)=θ,则称θ’是未知参数θ的无偏估计量。
②有效性
指估计量的方差尽可能小。样本估计量与总体参数的接近程度是用估计量的方差来度量的。
设θ1’和θ2’都是未知参数θ的无偏估计量,若有D(θ1’)<= D(θ2’),且等号不是一直成立,则称θ1’较θ2’有效。
③一致性
指随着样本量的增大,点估计量的值越来越接近被估计的总体参数。
设θ’为未知参数θ的估计量,若对于任意θ∈Θ,当n→∞时,θ’依概率收敛于θ,则称θ’为θ的一致估计量。
均值(正态分布)、比例(正态分布)、方差(卡方分布),一些公式。
均值之差(正态分布)、比例之差(正态分布)、方差之比(F分布),一些公式。
上述公式的反应用。
假设检验问题:在总体分布函数完全未知或者只知道其形式不知道参数的情况下,提出某些关于总体分布函数的假设,然后抽取样本,构造合适的统计量,再作出接受或拒绝的决策,这样的问题称为假设检验问题。
原假设一般记为H0,与之相对立的称为备择假设或者对立假设,记为H1。、
假设检验的两类错误:H0实际为真时,拒绝了H0,称为第Ⅰ类错误。H0实际为假时,接受了H0,称为第Ⅱ类错误。
α是一个小的正数,在作检验时要求犯第Ⅰ类错误的概率≤α,α称为检验的显著水平。
对于给定的样本容量,只控制犯第Ⅰ类错误的概率,而不考虑犯第Ⅱ类错误的概率,这样的检验方法称为显著性检验。
均值(正态分布)、比例(正态分布)、方差(卡方分布)。
根据计算的检验统计量,对比检验表可知拒绝还是接受假设。
均值之差(正态分布)、比例之差(正态分布)、方差之比(F分布)
根据计算的检验统计量,对比检验表可知拒绝还是接受假设。
分类变量的取值是各个类别,对这些类别通常是对其频数进行观察和分析。分类变量的推断就是根据各类别的频数利用χ2分布进行分析,因此也称为χ2检验。
χ2拟合优度检验:利用χ2统计量来判断某个分类变量各类别的观察频数分布与某一理论频数或期望分布是否一致。
检验统计量为:Pearsonχ2,计算公式为:χ2 = Σ(f0 - fe)2/ fe。其中f0为观察频数,fe为期望频数,服从自由度为k-1的χ2分布,k为类别数。
χ2独立检验:对列联表中的两个分类变量进行分析,判断两个变量是否独立。
检验统计量为:χ2 = Σ Σ(f0 - fe)2/ fe。该统计量服从自由度为(r-1)(c-1)的χ2分布,r为列联表行数,c为列数。
应用χ2检验时,要求样本量足够大。
如果χ2独立性检验拒绝了独立假设,则表明两个变量不独立,可以进一步测度它们之间的关联程度,主要使用的统计量有:φ系数、Cramer’s V系数、列联系数。
主要用于2×2列联表的相关性测量。计算公式为:φ = sqrt(χ2/n),其中χ2 = Σ Σ(f0 - fe)2/ fe,n为样本总量。φ越接近于1,相关性越强。
V = sqrt(χ2 / n×min(r-1, c-1) ),χ2 = Σ Σ(f0 - fe)2/ fe,当r和c有一个为2,就等于φ系数。
主要运用于大于2×2列联表的相关性测量,用C表示。
C = sqrt(χ2 / χ2 + n)。