经验分布函数(Empirical Distribution Functions)

一、顺序统计量

(X1,X2,,Xn) 是总体 X 的一个样本。如果 Xi(i=1,2,,n) 是样本 (X1,X2,,Xn) 这样的的函数:它总是取样本观察值 (x1,x2,,xn) 按从小到大排序后第 i 个值为自己的观测值。那么就称 X1,X2,,Xn 为顺序统计量。顺序统计量可以简记为

Xk={X1,X2,,Xnk},k=1,2,,n

特别地,
X1=minX1,X2,,XnXn=maxX1,X2,,Xn

X1 Xn 分别为样本的最小值和最大值。并称 R=XnX1 为样本的极差。
X̃ =Xn+12,n12(Xn2+Xn2+1),n

X̃  为样本的中位数。

二、经验分布函数(EDF,Empirical Distribution Functions)

x1,x2,,xn 是总体 X 的一组容量为 n 的样本观测值,将它们按从小到大的顺序重新排列为 x1,x2,,xn ,对于任意实数 x ,定义函数

Fn(x)=0,x<x1k/n,xkx<xk+1,k=1,2,,n11,xnx

则称 Fn(x) 为总体 X 的经验分布函数。它还可以简记为 Fn(x)=1/n {x1,x2,,xn} ,其中 {x1,x2,,xn} 表示 x1,x2,,xn 中不大于 x 的个数。
另外一种常见的表示形式为
Fn(x)=1ni=1nI{xix}

其中, I 是indicator function, 即
I{xix}={1,xix0,otherwise

因此,求经验分布函数 Fn(x) 在一点 x 处的值,只要求出随机变量 X n 个观测值 x1,x2,,xn 中小于或等于 x 的个数,再除以观测次数 n 即可。由此可见, Fn(x) 就是在 n 次重复独立实验中事件 {Xx} 出现的频率。

经验分布函数 Fn(x) 的图形(如下图所示)是一条呈跳跃上升的阶梯形曲线。如果样本观测值 x1,x2,,xn 中没有重复的数值,则每一跳跃为 1/n ,若有重复 l 次的值,则按 1/n l 倍跳跃上升。图中圆滑曲线是总体 X 的理论分布函数 F(x) 的图形。若把经验分布函数的图形连成折线,那么它实际就是累积频率直方图的上边。



这和概率分布函数的性质是一致的。

三、格利文科定理(Glivenko Theorem)

根据大数定理可知,当试验次数增大时,事件的频率稳定于概率。那么,当试验次数增大时,表示事件 {Xx} 出现频率的经验分布函数是否接近于表示事件 {Xx} 出现概率的总体分布函数呢?这个问题可由格利文科定理来回答。

格利文科定理:设总体 X 的分布函数 F(x) ,经验分布函数 Fn(x) ,则有

P{limnsup<x<+Fn(x)F(x)=0}=1

该定理揭示了总体 X 的理论分布函数与经验分布函数之间的内在联系。它指出当样本容量足够大时,从样本算得的经验分布函数 Fn(x) 与总体分布函数 F(x) 相差的最大值也可以足够小,这就是用样本来推断总体的数学依据。

欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji,为保证公式、图表得以正确显示,强烈建议你从该地址上查看原版博文。本博客主要关注方向包括:数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、自然语言处理。

参考文献

[1] 葛余博,概率论与数理统计,清华大学出版社
[2] 李时,应用统计学,清华大学出版

你可能感兴趣的:(顺序统计量,经验分布,EDF,Glivenko定理)