非参数统计笔记

绪论

1. 概念

1.1 参数统计

数理统计学的其实就是参数统计方法。即,设总体分布已知,但包含未知参数,利用样本对未知参数进行估计或者进行假设检验的推断问题。

1.2 非参数统计

总体分布未知时,则称该问题为非参数统计问题。

特点:(1)具有天然的稳健性;(2)适用面广,但有时效率较低;(3)可处理定性数据(参数统计只能处理定性数据哦);(4)以大样本理论为主导;(5)推断形式多样化。

2. 非参数统计的研究内容

2.1 非参数检验

单样本问题(如随机性检验,即判断总体是否有分布)、两样本问题、多样本问题、相关性问题。

其实类似于参数检验的学习。

2.2 非参数估计

分位点(数)、总体密度、回归函数、评价标准

3. 次序统计量

由于非参数统计中总体是未知的,因此不能使用样本来自于某分布这种信息,只能使用样本的一般信息,即样本量,样本之间的位置关系(表现出来就是次序统计量)等。

3.1 定义

讲X1,...,Xn的每一组取值由小到大排列,第i大的观测值即为X(i)的所有取值,称作第i个次序统计量。而(X(1),...,X(n))则称作原样本的次序统计量。

例子:

非参数统计笔记_第1张图片

 3.2 性质

(1)次序统计量不独立也不同分布

(2)次序统计量与总体分布的类型是一致的(参考上个例子)

3.3 次序统计量的抽样分布

所有统计量都有自己的抽样分布,否则统计量就没有意义。

X\sim F(x),则

F_{(i)}(x)=P(X_{(i)}\leq x) = P(X1,...Xn中至少有i个小于等于x)

也就等于

\sum_{k=i}^{n}   P(X1,...Xn中恰有k个小于等于x)

\sum_{k=i}^{n}\binom{n}{k}[P(X\leq x)]^k[P(X>x)]^{n-k}

因此不难得到

F_{(i)}(x)=\sum_{k=i}^{n}\binom{n}{k}[F(x)]^k[1-F(x)]^{n-k}

通过次序统计量的抽样分布表达式可以得到结论:次序统计量与总体分布的类型一致,即性质2。总体是离散时,次序统计量一定是离散的,总体是连续时,次序统计量一定是连续的。

3.4 应用

3.4.1 经验分布函数

非参数统计笔记_第2张图片

3.4.2 样本p分位数(总体p分位数的点估计)

(1)总体p分位数

连续分布:设 X\sim f,若 F(x_p)=p,则称xp为X的p分位点。

离散分布:为了保证式子一定存在,定义 x_p=inf\left \{ x:F(x)\geq p \right \},即xp为使得F(x)大于等于p的所有x中最小的一个。

(2)样本p分位数

样本p分位数xp即等于X(1),X(2)...X(n)中np位置上的次序统计量。

例子:

非参数统计笔记_第3张图片

(3)分位数的大样本区间估计

对xp进行大样本区间估计,可以有

\widehat{x_p}\sim N(x_p,\frac{p(1-p)}{nf^2(x_p)})

构造枢轴量

G=\frac{\widehat{x_p}-x_p}{\sqrt{p(1-p)/nf^2(x_p)}}\sim N(0,1)

P(a<=G<=b)=1-\alpha,可以得到  b=-a=u_{1-\alpha/2}

也即

\widehat{x_p}\pm u_{1-\alpha/2}\frac{\sqrt{p(1-p)}}{\sqrt{n}f(x_p)}

其实就是参数检验里面的枢轴量方法啦,但是我全部都忘光光了。不过在这里,由于总体的密度未知,因此还需要估计总体密度函数在xp处的值,即 \widehat{f}(\widehat{x_p}) ,才能得到xp的渐进1-α置信区间,过于复杂,因此这种xp的大样本估计一般不常使用。

与其这样不如去考虑xp的小样本估计,于是,我们要利用好次序统计量,并引入示性函数作为辅助。

示性函数:

I_A(x)=\left\{\begin{matrix} 1 & x\in A\\ 0 & x\notin A \end{matrix}\right.

作用:我们可以用示性函数表达一些分段函数,简化分段函数的表达方法;可以将任意一个随机变量变成两点分布;可以用以估算尾部概率,即X>t的概率(因为这其实就是数数嘛,当Xi>t时记1,否则记0)。

(4)分位数的小样本区间估计

你可能感兴趣的:(算法)