因为常常需要知道随机变量,以及他们的和偏离均值的情况,所以需要一系列集中不等式。
在集中不等式中有两种思路,一种是矩法,可以得到包括Markov和Chebyshev不等式在内的各种估计:
另一种是Chernoff方法,也就是通过一步放缩,把问题转化成对M.G.F的估计。
(1)在M.G.F比较好估计的时候,用Chernoff 方法比较多。
(2) 矩法看起来粗糙,但是用矩法(所有的k)能得到的最好的估计不会比Chernoff方法得到的差。
Hoeffding 不等式
第一类发展的不等式是Hoeffding 不等式,我们要把变量限制在次高斯分布上。
定义:一个随机变量 X ,有均值,而且存在满足:对于任意的实数成立,就叫做一个次高斯分布。
例子:就是有参数的次高斯分布
例子:X 有界而且,那么 X 是次高斯分布而且有参数
例子:Rademacher 随机变量是次高斯分布,参数
等价判别:次高斯分布有很多,也有很多不同的判别方法,以下等价
(1)存在使得对于任意的实数成立 (根据Wiki,可以在e前面加上常数)
(2)存在一个常数和一个高斯变量使得
(3)存在一个常数使得
(4)存在一个常数使得 对于任意的
第一个判别是对M.G.F有限制,第二个判别是说这个分布的tail bound 被一个高斯分布bound住,第三个判别是对矩直接限制。
上面的四个判断都需要转化到zero-mean的分布上考虑,根据HDP上的论述,还有其他的一些判别手段,不需要转化成zero-mean:
(5)同样控制尾分布,但是(2)中是和一个具体的高斯尾分布比较,可以替换成一个高斯型尾分布:
(根据Wiki,这里2换成别的一个C也可以)
(6)同样控制矩,不过(3)中只是对偶数矩控制,而且形式不好利用。可以替换成对Lp norm的控制:
(这里p是整数或者是所有大于等于1的实数都可以)
(7)控制的M.G.F,不过不同于(4):
注意:这里有bound是正常的,假如对所有的正数都成立这个式子,那么X就是有界随机变量。
(8)控制的M.G.F,不过只要在一点有界就好了:
※这些等价关系的证明很有用,告诉我们如何从随机变量的一个性质转化成为另外一种性质。
次高斯分布空间:
(1)中心次高斯分布,结合次高斯参数作为norm,构成一个Banach空间。
如果是两个独立的 ,有次高斯参数,他们的和的次高斯参数可以缩小到
(2)全部的次高斯分布,结合范数,构成一个Banach空间。
(要求独立)
次高斯分布的centering inequality:
关于L2 norm 有个中心化不等式:
这样的不等式保证了我们在使用mean zero的不等式时候不得不把随机变量中心化是可行的。
关于 norm 也有这样的不等式,核心的想法就是L1 norm 可以被 norm控制住。但是这里的C取不到1。
定理:一个次高斯分布会有尾概率估计:
(左右各一半)
定理(Hoeffding):假设随机变量独立,有均值和次高斯系数,设,,
Khinthine 不等式
是Hoeffding 不等式的推广,对mean zero sub Gaussian r.v的linear combination 的Lp norm的上下界估计,大概会跟combination coefficient的l2 norm差不多大。
最直接的应用就是,这些mean zero sub Gaussian r.v是Rademacher r.v
定理:是独立的次高斯分布,零均值单位方差,
在的时候有
其中
在的时候
的时候应该是差不多
HDP p31有证明的概要。
Bernstein 不等式
为了得到更general的集中不等式,需要比次高斯更大的类别:
定义: X是一个随机变量而且有均值,如果存在非负的参数使得:
那么称作一个次指数分布
很显然,次指数分布考虑了M.G.F不能再每个点展开的情况,所以比次高斯更广泛。
例子:标准高斯的平方是一个次指数分布
等价判别:
如果一个随机变量满足以下之一,就是一个次指数分布
(1)
(2)
(3)
(4)是有限的
第一条是对M.G.F局部做限制,第二条是说假如M.G.F在原点局部能展开,那么一定是次指数,第三条对尾分布做限制,被指数分布控制着,第四条是对矩直接做限制。
HDP中提供了以下的一些判别:
(5)
(6)
(7)
对绝对值X的M.G.F做限制
(8) 一点有界
和SubGaussian的联系:
次指数同样有centering 不等式
定理:
一个次指数分布会有尾概率估计
定理:假设随机变量独立,有均值,次指数系数
设
那么
一个用于量化中心极限定理的版本:
所以在比 小的时候是有常数方差的高斯分布
很多时候直接对M.G.F bound有难度,考虑bound 矩:
Bernstein condition:
例子:有界随机变量且都符合,包括下面的Bernstein-type inequality最主要也是对这种有界随机变量使用。
定理:有Bernstein condition的随机变量有M.G.F的估计:
所以他一定是次指数分布,有系数
是独立的随机变量,每个满足Bernstein condition
现对于 有:
取就可以得到
(对负的一边做了类似的处理)
注意:(1)这里Bernstein type的exp中是,在t很小的时候也是接近Gaussian分布的,但是和Hoeffding 不同的是这边那是,真实方差,那边是b,区间长度。我们知道更小,所以Bernstein在小 t 问题上会更好一些。
(2)而且统计中很多问题会要用到方差。
(3)有界随机变量除了可以直接用Hoeffding ,Bernstein,还可以用Bennett不等式。Bennett不等式揭示了在小偏差是高斯型,大偏差是Poisson型,可能更精确一点。