注:以下内容整理于七月算法2016年4月班培训讲义,详见: http://www.julyedu.com/
内容简介:
A.重要统计量注:期望为一阶原点矩,方差为二阶中心距
B.重要定理与不等式
一.Jensen不等式
如果f是凸函数,那么:
该不等式称为Jensen不等式。
注:该不等式有扩展形式,此处略。
二.切比雪夫不等式:未知随机变量分布,只知道E(X)和D(X),估计P{|X-E(X)|<ε}的界限
设随机变量X的的期望为μ,方差为α^2,对于任意的正数ε,有:
该不等式称为切比雪夫不等式。
图形化描述:
证明如下:
切比雪夫不等式的意义:说明随机变量X的方差越小,事件P{|X-E(X)|<ε}发生的概率越大,即X的取值越集中在期望E(X)附近分布。
三.大数定理
1.辛钦大数定律
2.伯努利大数定理
大数定理的意义:当n很大时,随机变量X1,X2...Xn的平均值Yn在概率意义下无限接近于期望μ。
或者,可以说当n很大时,频率收敛于概率。
四.中心极限定理
C.参数估计
一.样本统计量
计算样本方差的时候为什么不是除以n而是n-1呢?
为了得到无偏估计。
那为什么除以n就是“有偏估计”呢?
以下证明旨在说明为什么除以n有误差,并不能说明为什么要除以n-1而不是n-2或n-3...
假设随机变量X的期望μ已知,而方差α^2未知。根据方差的定义,有
由此可得:
上式是基于期望μ已知的情况下计算的结果,现在考虑μ未知的情况。
我们使用样本均值代替μ,有
所以,除非样本均值恰好等于随机变量X的期望μ,否则我们一定有
这就说明了除以n是有误差的,但是,依然没有说明为啥要除以n-1。
二.样本的矩
1.k阶样本原点矩
2.k阶样本中心矩
三.矩估计
基于样本矩依概率收敛于相应的总体矩,样本矩的连续函数依概率收敛于相应的总体矩的连续函数,
我们使用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数
的估计量,这种估计方法为矩估计法。
例1:在正态分布的总体中采样得到n个样本:X1,X2...Xn,试求μ和α^2的矩估计量。
例2:设总体X在[a,b]上服从均匀分布,a和b未知, X1,X2...Xn是来自X的样本,试求a,b的矩估计量。
由矩估计可得:
我们令总体均值、总体方差分别等于矩估计的样本均值、样本方差
解得:
四.极大似然估计(已经发生的,就是概率最大的!)
1.直观解释:设某分布的参数为θ,X1,X2...Xn为来自该分布的样本,即X1,X2...Xn已经发生了,
我们要估计的θ满足这样一个条件:在该分布下,使得X1,X2...Xn同时发生的概率最大。
举个例子:箱子里有5个球,白球和黑球,已知两种颜色球的数量比是4:1,但是不知道白球是4还是黑球是4。
即不确定黑:白=4:1 OR 白:黑=4:1,现在要对此进行估计。
现在有放回的从箱子中取球,取了3次,每次都是黑球,我们记为事件A,那么,
如果 黑:白=4:1,则P(A)=0.8*0.8*0.8=0.512
如果 白:黑=4:1,则P(A)=0.2*0.2*0.2=0.008
所以,基于事件A已经发生了这个事实,我们有51.2%的把握相信黑:白=4:1,而只有0.8%的把握相信白:黑=4:1。
因此,一般的讲,我们估计结果为黑:白=4:1。
2.似然函数
例1: 设X~b(1,p),X1,X2,...,Xn是来自X的一个样本,试求参数p的极大似然估计量。
设x1,x2,...,xn是相应于样本X1,X2,...,Xn的样本值。X的分布律为:
故似然函数为: