Concentration Inequality(集中不等式)更新版

欢迎来我博客 https://wyue.name/2020/04/17/1/阅读这一篇博文

转载前请联系我,联系方式请见我博客 https://wyue.name/

Concentration inequality 刻画了一组随机变量的和(或者样本平均数)与其期望值的偏离程度,在算法收敛性分析过程中是非常有用的一类不等式。

这次主要总结一下最近一段时间遇到的集中不等式,不仅是不等式形式,也有不等式之间的相互关系的归纳总结,包括:

  • Markov’s inequality
  • Chebyshev’s inequality
  • Chernoff bounds
  • Hoeffding’s inequality
  • Bennett’s inequality
  • Bernstein’s inequalities
  • Azuma’s inequality
  • Doob’s martingale inequality

文章目录

  • Markov's inequality
    • 条件:
    • 公式:
    • 直观与讨论:
  • Chebyshev's inequality
    • 条件
    • 公式
    • 直观与讨论
  • Chernoff bounds
    • 条件
    • 公式
    • 直观与讨论
  • Hoeffding's inequality
    • 条件
    • 公式
    • 直观与讨论
  • Weighted Hoeffding Inequality
    • 条件
    • 公式
    • 直观与讨论
  • Bennett's inequality
    • 条件
    • 公式
    • 直观与讨论
  • Bernstein's inequalities
    • 条件
    • 公式
    • 直观与讨论
  • Azuma's inequality
    • 条件
    • 公式
    • 直观与讨论
  • Doob's martingale inequality
    • 条件
    • 公式
    • 直观与讨论
  • 整体讨论

Markov’s inequality

条件:

X 是非负随机变量, a>0

公式:

P ⁡ ( X ≥ a ) ≤ E ⁡ ( X ) a \operatorname{P}(X \geq a) \leq \frac{\operatorname{E}(X)}{a} P(Xa)aE(X)

直观与讨论:

一个随机变量的取值大于a的概率要小于其期望值除以a。直观很简单就是,假设10个人的平均工资是1块钱,那么如果超过2两个人的工资超过5块钱了,那么哪怕剩下来的人没有工资,这10个人的工资平均也超过1块钱了. 这里大家的工资就是随机变量X, a就是5, E(x)就是1, P ( X ≤ a ) P(X \le a) P(Xa) 就是0.2

Markov’s inequality 最简单,也最“松”,只用到了随机变量的期望信息。
这里“松”是指,对于相同的a,我们求出来的概率最小,或者要求相同的概率,得到的a最大(不必要)。

Chebyshev’s inequality

条件

X X X 为均值为 μ \mu μ, 方差为 σ 2 \sigma^2 σ2 的随机变量, 任意实数 k k k

公式

P ( ∣ X − μ ∣ ≥ k σ ) ≤ 1 k 2 P(|X-\mu|\ge k\sigma)\le \frac{1}{k^2} P(Xμkσ)k21

直观与讨论

Chebyshev 不等式刻画了一个随机变量偏离其均值的概率。直观来说就是离均值越远,概率越小,并且小的速率收到方差的控制。由于Chebyshev不等式不依赖分布的具体信息,只依赖一阶矩和二阶矩,因此应用广泛。

Chebyshev不等式通过考虑方差和期望的信息, 比markov不等式更加细致。

Chernoff bounds

条件

X X X 是n个独立随机变量 x 1 , ⋯   , x n x_1, \cdots , x_n x1,,xn 的和, t t t是任意大于0的实数

公式

P ( x i > a ) = P ( e t x i > e t a ) ≤ e − t a E [ e t X ] P(x_i>a)=P(e^{t x_i}>e^{ta}) \le e^{-ta}E[ e^{tX}] P(xi>a)=P(etxi>eta)etaE[etX]
P ( X > a ) ≤ e − t a E [ Π i e t x i ] P(X>a) \le e^{-ta}E[\Pi_i e^{tx_i}] P(X>a)etaE[Πietxi]
P ( X > a ) ≤ m i n t > 0 [ e − t a E [ Π i e t x i ] ] P(X>a) \le min_{t>0}\left[ e^{-ta}E[\Pi_i e^{tx_i}] \right] P(X>a)mint>0[etaE[Πietxi]]

直观与讨论

Chernoff 算是一个技巧,本质上是Markov不等式的直接应用。如看上文公式中的第一个式子,左边的等号就是Chernoff的核心技巧,即将随机变量转化成指数的形式,并且引入一个新的参数 t t t,右边的 ≤ \le 就是直接应用了Markov不等式。

下面可以看到Chernoff的技巧是得到 Hoeffding不等式的关键。简单来说,Hoeffding不等式是Chernoff的应用。

Hoeffding’s inequality

条件

x i , ⋯   , x n x_i, \cdots, x_n xi,,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, X ˉ = 1 n ( x 1 + ⋯ + c n ) \bar{X} = \frac{1}{n}(x_1 + \cdots + c_n) Xˉ=n1(x1++cn)

公式

P ( x ˉ − E [ x ˉ ] ≥ t ) ≤ e x p ( − 2 n 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P(\bar{x} - E[\bar{x}]\ge t) \le exp\left( -\frac{2n^2t^2}{\sum_{i=1}^n (b_i-a_i)^2} \right) P(xˉE[xˉ]t)exp(i=1n(biai)22n2t2)

直观与讨论

Hoeffding 不等式刻画了一族随机变量的和偏离其期望的概率。只要求随机变量独立且有界,对随机变量的分布和各阶矩没有任何要求,并且这些随机变量可以不同分布。

Hoeffding不等式在机器学习算法的收敛性证明中起到了非常重要的作用,尤其是需要刻画算法的输出在多大概率的意义下可以收敛到我们希望的结果中这一情况下,我们可以利用hoeffding 不等式得到随机算法输出的结果与其期望结果的关系,从而得到想要的高概率界。

Weighted Hoeffding Inequality

条件

x i , ⋯   , x n x_i, \cdots, x_n xi,,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, X ˉ = 1 n ( w 1 x 1 + ⋯ + w n x n ) \bar{X} = \frac{1}{n}(w_1x_1 + \cdots + w_nx_n) Xˉ=n1(w1x1++wnxn)

公式

P ( x ˉ − E [ x ˉ ] ≥ t ) ≤ e x p ( − 2 n 2 t 2 ∑ i = 1 n w i 2 ( b i − a i ) 2 ) P(\bar{x} - E[\bar{x}]\ge t) \le exp\left( -\frac{2n^2t^2}{\sum_{i=1}^n w_i^2(b_i-a_i)^2} \right) P(xˉE[xˉ]t)exp(i=1nwi2(biai)22n2t2)

直观与讨论

与简单的Hoeffding 不等式类似,唯一区别在于是加权平均数。

Bennett’s inequality

条件

x i , ⋯   , x n x_i, \cdots, x_n xi,,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, b i − a i = c i ≤ C b_i-a_i=c_i \le C biai=ciC, X ˉ = 1 n ( x 1 + ⋯ + x n ) \bar{X} = \frac{1}{n}( x_1 + \cdots + x_n) Xˉ=n1(x1++xn) ,
σ 2 = ∑ i = 1 n E [ x i 2 ] \sigma^2 = \sum_{i=1}^nE[x_i^2] σ2=i=1nE[xi2], t为任意实数

公式

P ( X ˉ − E [ X ˉ ] ≥ t ) ≤ e x p ( − σ 2 C 2 h ( C t n σ 2 ) ) P(\bar{X} -E[\bar{X}] \ge t) \le exp\left( -\frac{\sigma^2}{C^2} h(\frac{Ct}{n\sigma^2})\right) P(XˉE[Xˉ]t)exp(C2σ2h(nσ2Ct))
h ( u ) = ( 1 + u ) l o g ( 1 + u ) − u h(u) = (1+u)log(1+u) - u h(u)=(1+u)log(1+u)u

直观与讨论

因为利用了方差的信息,这个界更加细致。

Bernstein’s inequalities

条件

x i , ⋯   , x n x_i, \cdots, x_n xi,,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, b i − a i = c i ≤ C b_i-a_i=c_i \le C biai=ciC, X ˉ = 1 n ( x 1 + ⋯ + c n ) \bar{X} = \frac{1}{n}(x_1 + \cdots + c_n) Xˉ=n1(x1++cn) , σ 2 = ∑ i = 1 n E [ x i 2 ] \sigma^2 = \sum_{i=1}^nE[x_i^2] σ2=i=1nE[xi2], t为任意实数

公式

P ( X ˉ − E [ X ˉ ] ≥ t ) ≤ e x p ( − t 2 / 2 n 2 σ 2 + C t n / 3 ) P(\bar{X} -E[\bar{X}] \ge t) \le exp\left( -\frac{t^2/2 }{n^2\sigma^2 + Ctn/3} \right) P(XˉE[Xˉ]t)exp(n2σ2+Ctn/3t2/2)

直观与讨论

将Bennett不等式中的h函数用更松的形式代换, 可以证明这个不等式。

h ( u ) ≥ u 2 2 + 2 u / 3 h(u)\ge \frac{u^2}{2+2u/3} h(u)2+2u/3u2

在Bernstein不等式中,我们可以看到,如果方差较小, 相同n和t的时候, 不等号右侧的概率值相比hoeffding不等式要小,说明Bernstein不等式通过考虑方差信息,获得了更加精细的结果。

Azuma’s inequality

前面讨论的一些不等式都要求随机变量独立,Azuma不等式研究的随机变量序列可以有相关性

条件

x i , ⋯   , x n x_i, \cdots, x_n xi,,xn 是一族鞅序列,,且 ∣ x i − x i − 1 ∣ < c i | x_i - x{i-1} | < c_i xixi1<ci, t为任意实数

鞅指的是满足如下两个条件的随机过程
E [ ∣ x n ∣ ] < ∞ E[|x_n|] <\infty E[xn]<
E [ x n + 1 ∣ x 1 , ⋯ x n ] = x n E[x_{n+1}|x_1, \cdots x_n]=x_n E[xn+1x1,xn]=xn

公式

P ( x N − x 0 ≥ t ) ≤ e x p ( − t 2 2 ∑ i = 1 N c i 2 ) P(x_N-x_0 \ge t) \le exp\left( -\frac{t^2 }{2\sum_{i=1}^Nc_i^2 } \right) P(xNx0t)exp(2i=1Nci2t2)

直观与讨论

如果将鞅序列拆分成鞅差序列, 即令 y i = x i − x i − 1 y_i = x_i - x_{i-1} yi=xixi1, 那么 y i y_i yi满足如下两条,为鞅差序列
E [ ∣ x n ∣ ] < ∞ E[|x_n|] <\infty E[xn]<
E [ x n + 1 ∣ F n ] = 0 E[x_{n+1}|\mathcal{F}_n]=0 E[xn+1Fn]=0

x n − x 0 = ∑ i = 1 N y i x_n-x_0 = \sum_{i=1}^N y_i xnx0=i=1Nyi Azuma不等式可以看成鞅差序列的和偏离0的概率

Doob’s martingale inequality

条件

x x x是上鞅,即对任意两个时刻 s < t ss<t x s ≤ E [ x t ∣ F s ] x_s \le E[x_t|\mathcal{F_s}] xsE[xtFs]

公式

P ( sup ⁡ 0 ≤ t ≤ T x t ≥ C ) ≤ E [ max ⁡ ( x T , 0 ) ] C P(\sup_{0\le t \le T}x_t \ge C) \le \frac{E[\max(x_T,0)]}{C} P(0tTsupxtC)CE[max(xT,0)]

直观与讨论

这个不等式讨论了上鞅序列在路径中的表现,即如果我们知道上鞅序列 X t X_t Xt在最后 T T T时刻的表现,我们就能大概推测出在整个0到T时刻之间随机变量 x t x_t xt大于某个值的概率。

整体讨论

上述讨论的公式形式比较单一,都是描述随机变量或者随机变量的和偏离其中心的概率值的大小。但是实际上我们根据上文中的结果,可以很容易的推导出其他变形形式。

用Heoffding不等式举例,我们还可以有以下结果:

  1. 当样本量为n的时候,以至少 1 − δ 1-\delta 1δ的结果,我们可以有如下

E [ X ˉ ] − X ˉ ≤ ∑ i = 1 n ( b i − a i ) 2 ln ⁡ 1 δ 2 n 2 E[\bar{X} ] - \bar{X} \le \sqrt{\frac{\sum_{i=1}^n(b_i-a_i)^2\ln\frac{1}{\delta }}{2n^2}} E[Xˉ]Xˉ2n2i=1n(biai)2lnδ1

  1. 同理,如果我们需要以至少 1 − δ 1-\delta 1δ的概率保证差距小于 ϵ \epsilon ϵ,则我们至少需要这么多样本(假设所有的 b i < b ,   a i > a b_i a bi<b, ai>a )

N = ( b − a ) 2 ln ⁡ 1 δ 2 ϵ 2 N = \frac{ (b -a )^2\ln\frac{1}{\delta }}{2\epsilon^2} N=2ϵ2(ba)2lnδ1

类似这样的结论对于算法的收敛性分析和有限样本表现分析非常有用

你可能感兴趣的:(数学)