Concentration 不等式(一)

因为常常需要知道随机变量,以及他们的和偏离均值的情况,所以需要一系列集中不等式。

在集中不等式中有两种思路,一种是矩法,可以得到包括Markov和Chebyshev不等式在内的各种估计:

另一种是Chernoff方法,也就是通过一步放缩,把问题转化成对M.G.F的估计。

(1)在M.G.F比较好估计的时候,用Chernoff 方法比较多。

(2) 矩法看起来粗糙,但是用矩法(所有的k)能得到的最好的估计不会比Chernoff方法得到的差。


Hoeffding 不等式

第一类发展的不等式是Hoeffding 不等式,我们要把变量限制在次高斯分布上。

定义:一个随机变量  X   ,有均值,而且存在满足:对于任意的实数成立,就叫做一个次高斯分布。

例子:就是有参数的次高斯分布

例子:X 有界而且,那么 X 是次高斯分布而且有参数

例子:Rademacher 随机变量是次高斯分布,参数


等价判别:次高斯分布有很多,也有很多不同的判别方法,以下等价

(1)存在使得对于任意的实数成立  (根据Wiki,可以在e前面加上常数)

(2)存在一个常数和一个高斯变量使得

(3)存在一个常数使得

(4)存在一个常数使得 对于任意的


第一个判别是对M.G.F有限制,第二个判别是说这个分布的tail bound 被一个高斯分布bound住,第三个判别是对矩直接限制。

上面的四个判断都需要转化到zero-mean的分布上考虑,根据HDP上的论述,还有其他的一些判别手段,不需要转化成zero-mean:
(5)同样控制尾分布,但是(2)中是和一个具体的高斯尾分布比较,可以替换成一个高斯型尾分布:

  (根据Wiki,这里2换成别的一个C也可以)

(6)同样控制矩,不过(3)中只是对偶数矩控制,而且形式不好利用。可以替换成对Lp norm的控制:

(这里p是整数或者是所有大于等于1的实数都可以)

(7)控制的M.G.F,不过不同于(4):

注意:这里有bound是正常的,假如对所有的正数都成立这个式子,那么X就是有界随机变量。

(8)控制的M.G.F,不过只要在一点有界就好了:

 


※这些等价关系的证明很有用,告诉我们如何从随机变量的一个性质转化成为另外一种性质


次高斯分布空间

(1)中心次高斯分布,结合次高斯参数作为norm,构成一个Banach空间。

如果是两个独立的 ,有次高斯参数,他们的和的次高斯参数可以缩小到

(2)全部的次高斯分布,结合范数,构成一个Banach空间。

 (要求独立)


次高斯分布的centering inequality

关于L2 norm 有个中心化不等式:

这样的不等式保证了我们在使用mean zero的不等式时候不得不把随机变量中心化是可行的。

关于 norm 也有这样的不等式,核心的想法就是L1 norm 可以被 norm控制住。但是这里的C取不到1。


定理:一个次高斯分布会有尾概率估计:

   (左右各一半)

定理(Hoeffding):假设随机变量独立,有均值和次高斯系数,设,,


Khinthine 不等式

是Hoeffding 不等式的推广,对mean zero sub Gaussian r.v的linear combination 的Lp norm的上下界估计,大概会跟combination coefficient的l2 norm差不多大。

最直接的应用就是,这些mean zero sub Gaussian r.v是Rademacher r.v

定理:是独立的次高斯分布,零均值单位方差

在的时候有

其中

在的时候

的时候应该是差不多


HDP p31有证明的概要。



Bernstein 不等式

为了得到更general的集中不等式,需要比次高斯更大的类别:

定义: X是一个随机变量而且有均值,如果存在非负的参数使得:

 那么称作一个次指数分布

很显然,次指数分布考虑了M.G.F不能再每个点展开的情况,所以比次高斯更广泛。

例子:标准高斯的平方是一个次指数分布


等价判别

如果一个随机变量满足以下之一,就是一个次指数分布

(1)

(2)

(3)

(4)是有限的

第一条是对M.G.F局部做限制,第二条是说假如M.G.F在原点局部能展开,那么一定是次指数,第三条对尾分布做限制,被指数分布控制着,第四条是对矩直接做限制。 

HDP中提供了以下的一些判别:

(5)

(6)

(7)

对绝对值X的M.G.F做限制

(8) 一点有界


和SubGaussian的联系


次指数同样有centering 不等式


定理

一个次指数分布会有尾概率估计

\mathbb{P}[|X-\mu |\geq t] \leq\left\{\begin{array}{ll}{2e^{-\frac{t^{2}}{2 v^{2}}}} & {\text { if } 0 \leq t \leq \frac{v^{2}}{\alpha}} \\{2e^{-\frac{t}{2 \alpha}}} & {\text { for } t>\frac{v^{2}}{\alpha}}\end{array}\right.

定理:假设随机变量独立,有均值,次指数系数

   

 

那么\mathbb{P}\left[|X-\mu|\geq t\right] \leq\left\{\begin{array}{ll}{2e^{-\frac{ t^{2}}{2\left(v_{*}^{2}\right)}}} & {\text { for } 0 \leq t \leq \frac{v_{*}^{2}}{ \alpha_{*}}} \\{2e^{-\frac{ t}{2 \alpha_{*}}}} & {\text { for } t>\frac{v_{*}^{2}}{ \alpha_{*}}}\end{array}\right.


一个用于量化中心极限定理的版本:

\mathbb{P}\left\{\left|\frac{1}{\sqrt{N}} \sum_{i=1}^{N} X_{i}\right| \geq t\right\} \leq\left\{\begin{array}{ll}{2 \exp \left(-c t^{2}\right),} & {t \leq C \sqrt{N}} \\{2 \exp (-ct \sqrt{N}),} & {t \geq C \sqrt{N}}\end{array}\right.

所以在比  小的时候是有常数方差的高斯分布



很多时候直接对M.G.F bound有难度,考虑bound 矩:

Bernstein condition

例子:有界随机变量且都符合,包括下面的Bernstein-type inequality最主要也是对这种有界随机变量使用。


定理:有Bernstein condition的随机变量有M.G.F的估计:

   

所以他一定是次指数分布,有系数


是独立的随机变量,每个满足Bernstein condition

现对于 有:

\begin{aligned}P(X-\mu \geqslant t) &=P\left(e^{\lambda(X-\mu)} \geqslant e^{\lambda t}\right) \\&=e^{-\lambda t} \prod_{i=1}^{n} E e^{\lambda\left(x_{i}-\mu_{i}\right)} \\&=e^{-\lambda t} e^{\frac{\lambda^{2} \sigma^{2} / 2}{1-b \lambda}}\end{aligned}

取就可以得到

 (对负的一边做了类似的处理)


注意:(1)这里Bernstein type的exp中是,在t很小的时候也是接近Gaussian分布的,但是和Hoeffding 不同的是这边那是,真实方差,那边是b,区间长度。我们知道更小,所以Bernstein在小  t  问题上会更好一些。

(2)而且统计中很多问题会要用到方差。

(3)有界随机变量除了可以直接用Hoeffding ,Bernstein,还可以用Bennett不等式。Bennett不等式揭示了在小偏差是高斯型,大偏差是Poisson型,可能更精确一点。

你可能感兴趣的:(Concentration 不等式(一))