欢迎来我博客 https://wyue.name/2020/04/17/1/阅读这一篇博文
转载前请联系我,联系方式请见我博客 https://wyue.name/
Concentration inequality 刻画了一组随机变量的和(或者样本平均数)与其期望值的偏离程度,在算法收敛性分析过程中是非常有用的一类不等式。
这次主要总结一下最近一段时间遇到的集中不等式,不仅是不等式形式,也有不等式之间的相互关系的归纳总结,包括:
X 是非负随机变量, a>0
P ( X ≥ a ) ≤ E ( X ) a \operatorname{P}(X \geq a) \leq \frac{\operatorname{E}(X)}{a} P(X≥a)≤aE(X)
一个随机变量的取值大于a的概率要小于其期望值除以a。直观很简单就是,假设10个人的平均工资是1块钱,那么如果超过2两个人的工资超过5块钱了,那么哪怕剩下来的人没有工资,这10个人的工资平均也超过1块钱了. 这里大家的工资就是随机变量X, a就是5, E(x)就是1, P ( X ≤ a ) P(X \le a) P(X≤a) 就是0.2
Markov’s inequality 最简单,也最“松”,只用到了随机变量的期望信息。
这里“松”是指,对于相同的a,我们求出来的概率最小,或者要求相同的概率,得到的a最大(不必要)。
X X X 为均值为 μ \mu μ, 方差为 σ 2 \sigma^2 σ2 的随机变量, 任意实数 k k k
P ( ∣ X − μ ∣ ≥ k σ ) ≤ 1 k 2 P(|X-\mu|\ge k\sigma)\le \frac{1}{k^2} P(∣X−μ∣≥kσ)≤k21
Chebyshev 不等式刻画了一个随机变量偏离其均值的概率。直观来说就是离均值越远,概率越小,并且小的速率收到方差的控制。由于Chebyshev不等式不依赖分布的具体信息,只依赖一阶矩和二阶矩,因此应用广泛。
Chebyshev不等式通过考虑方差和期望的信息, 比markov不等式更加细致。
X X X 是n个独立随机变量 x 1 , ⋯ , x n x_1, \cdots , x_n x1,⋯,xn 的和, t t t是任意大于0的实数
P ( x i > a ) = P ( e t x i > e t a ) ≤ e − t a E [ e t X ] P(x_i>a)=P(e^{t x_i}>e^{ta}) \le e^{-ta}E[ e^{tX}] P(xi>a)=P(etxi>eta)≤e−taE[etX]
P ( X > a ) ≤ e − t a E [ Π i e t x i ] P(X>a) \le e^{-ta}E[\Pi_i e^{tx_i}] P(X>a)≤e−taE[Πietxi]
P ( X > a ) ≤ m i n t > 0 [ e − t a E [ Π i e t x i ] ] P(X>a) \le min_{t>0}\left[ e^{-ta}E[\Pi_i e^{tx_i}] \right] P(X>a)≤mint>0[e−taE[Πietxi]]
Chernoff 算是一个技巧,本质上是Markov不等式的直接应用。如看上文公式中的第一个式子,左边的等号就是Chernoff的核心技巧,即将随机变量转化成指数的形式,并且引入一个新的参数 t t t,右边的 ≤ \le ≤就是直接应用了Markov不等式。
下面可以看到Chernoff的技巧是得到 Hoeffding不等式的关键。简单来说,Hoeffding不等式是Chernoff的应用。
x i , ⋯ , x n x_i, \cdots, x_n xi,⋯,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, X ˉ = 1 n ( x 1 + ⋯ + c n ) \bar{X} = \frac{1}{n}(x_1 + \cdots + c_n) Xˉ=n1(x1+⋯+cn)
P ( x ˉ − E [ x ˉ ] ≥ t ) ≤ e x p ( − 2 n 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P(\bar{x} - E[\bar{x}]\ge t) \le exp\left( -\frac{2n^2t^2}{\sum_{i=1}^n (b_i-a_i)^2} \right) P(xˉ−E[xˉ]≥t)≤exp(−∑i=1n(bi−ai)22n2t2)
Hoeffding 不等式刻画了一族随机变量的和偏离其期望的概率。只要求随机变量独立且有界,对随机变量的分布和各阶矩没有任何要求,并且这些随机变量可以不同分布。
Hoeffding不等式在机器学习算法的收敛性证明中起到了非常重要的作用,尤其是需要刻画算法的输出在多大概率的意义下可以收敛到我们希望的结果中这一情况下,我们可以利用hoeffding 不等式得到随机算法输出的结果与其期望结果的关系,从而得到想要的高概率界。
x i , ⋯ , x n x_i, \cdots, x_n xi,⋯,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, X ˉ = 1 n ( w 1 x 1 + ⋯ + w n x n ) \bar{X} = \frac{1}{n}(w_1x_1 + \cdots + w_nx_n) Xˉ=n1(w1x1+⋯+wnxn)
P ( x ˉ − E [ x ˉ ] ≥ t ) ≤ e x p ( − 2 n 2 t 2 ∑ i = 1 n w i 2 ( b i − a i ) 2 ) P(\bar{x} - E[\bar{x}]\ge t) \le exp\left( -\frac{2n^2t^2}{\sum_{i=1}^n w_i^2(b_i-a_i)^2} \right) P(xˉ−E[xˉ]≥t)≤exp(−∑i=1nwi2(bi−ai)22n2t2)
与简单的Hoeffding 不等式类似,唯一区别在于是加权平均数。
x i , ⋯ , x n x_i, \cdots, x_n xi,⋯,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, b i − a i = c i ≤ C b_i-a_i=c_i \le C bi−ai=ci≤C, X ˉ = 1 n ( x 1 + ⋯ + x n ) \bar{X} = \frac{1}{n}( x_1 + \cdots + x_n) Xˉ=n1(x1+⋯+xn) ,
σ 2 = ∑ i = 1 n E [ x i 2 ] \sigma^2 = \sum_{i=1}^nE[x_i^2] σ2=∑i=1nE[xi2], t为任意实数
P ( X ˉ − E [ X ˉ ] ≥ t ) ≤ e x p ( − σ 2 C 2 h ( C t n σ 2 ) ) P(\bar{X} -E[\bar{X}] \ge t) \le exp\left( -\frac{\sigma^2}{C^2} h(\frac{Ct}{n\sigma^2})\right) P(Xˉ−E[Xˉ]≥t)≤exp(−C2σ2h(nσ2Ct))
h ( u ) = ( 1 + u ) l o g ( 1 + u ) − u h(u) = (1+u)log(1+u) - u h(u)=(1+u)log(1+u)−u
因为利用了方差的信息,这个界更加细致。
x i , ⋯ , x n x_i, \cdots, x_n xi,⋯,xn 是一族独立的随机变量,且 a i < x i < b i a_i< x_i < b_i ai<xi<bi, b i − a i = c i ≤ C b_i-a_i=c_i \le C bi−ai=ci≤C, X ˉ = 1 n ( x 1 + ⋯ + c n ) \bar{X} = \frac{1}{n}(x_1 + \cdots + c_n) Xˉ=n1(x1+⋯+cn) , σ 2 = ∑ i = 1 n E [ x i 2 ] \sigma^2 = \sum_{i=1}^nE[x_i^2] σ2=∑i=1nE[xi2], t为任意实数
P ( X ˉ − E [ X ˉ ] ≥ t ) ≤ e x p ( − t 2 / 2 n 2 σ 2 + C t n / 3 ) P(\bar{X} -E[\bar{X}] \ge t) \le exp\left( -\frac{t^2/2 }{n^2\sigma^2 + Ctn/3} \right) P(Xˉ−E[Xˉ]≥t)≤exp(−n2σ2+Ctn/3t2/2)
将Bennett不等式中的h函数用更松的形式代换, 可以证明这个不等式。
h ( u ) ≥ u 2 2 + 2 u / 3 h(u)\ge \frac{u^2}{2+2u/3} h(u)≥2+2u/3u2
在Bernstein不等式中,我们可以看到,如果方差较小, 相同n和t的时候, 不等号右侧的概率值相比hoeffding不等式要小,说明Bernstein不等式通过考虑方差信息,获得了更加精细的结果。
前面讨论的一些不等式都要求随机变量独立,Azuma不等式研究的随机变量序列可以有相关性
x i , ⋯ , x n x_i, \cdots, x_n xi,⋯,xn 是一族鞅序列,,且 ∣ x i − x i − 1 ∣ < c i | x_i - x{i-1} | < c_i ∣xi−xi−1∣<ci, t为任意实数
鞅指的是满足如下两个条件的随机过程
E [ ∣ x n ∣ ] < ∞ E[|x_n|] <\infty E[∣xn∣]<∞
E [ x n + 1 ∣ x 1 , ⋯ x n ] = x n E[x_{n+1}|x_1, \cdots x_n]=x_n E[xn+1∣x1,⋯xn]=xn
P ( x N − x 0 ≥ t ) ≤ e x p ( − t 2 2 ∑ i = 1 N c i 2 ) P(x_N-x_0 \ge t) \le exp\left( -\frac{t^2 }{2\sum_{i=1}^Nc_i^2 } \right) P(xN−x0≥t)≤exp(−2∑i=1Nci2t2)
如果将鞅序列拆分成鞅差序列, 即令 y i = x i − x i − 1 y_i = x_i - x_{i-1} yi=xi−xi−1, 那么 y i y_i yi满足如下两条,为鞅差序列
E [ ∣ x n ∣ ] < ∞ E[|x_n|] <\infty E[∣xn∣]<∞
E [ x n + 1 ∣ F n ] = 0 E[x_{n+1}|\mathcal{F}_n]=0 E[xn+1∣Fn]=0
则 x n − x 0 = ∑ i = 1 N y i x_n-x_0 = \sum_{i=1}^N y_i xn−x0=∑i=1Nyi Azuma不等式可以看成鞅差序列的和偏离0的概率
x x x是上鞅,即对任意两个时刻 s < t s
s<t , x s ≤ E [ x t ∣ F s ] x_s \le E[x_t|\mathcal{F_s}] xs≤E[xt∣Fs]
P ( sup 0 ≤ t ≤ T x t ≥ C ) ≤ E [ max ( x T , 0 ) ] C P(\sup_{0\le t \le T}x_t \ge C) \le \frac{E[\max(x_T,0)]}{C} P(0≤t≤Tsupxt≥C)≤CE[max(xT,0)]
这个不等式讨论了上鞅序列在路径中的表现,即如果我们知道上鞅序列 X t X_t Xt在最后 T T T时刻的表现,我们就能大概推测出在整个0到T时刻之间随机变量 x t x_t xt大于某个值的概率。
上述讨论的公式形式比较单一,都是描述随机变量或者随机变量的和偏离其中心的概率值的大小。但是实际上我们根据上文中的结果,可以很容易的推导出其他变形形式。
用Heoffding不等式举例,我们还可以有以下结果:
E [ X ˉ ] − X ˉ ≤ ∑ i = 1 n ( b i − a i ) 2 ln 1 δ 2 n 2 E[\bar{X} ] - \bar{X} \le \sqrt{\frac{\sum_{i=1}^n(b_i-a_i)^2\ln\frac{1}{\delta }}{2n^2}} E[Xˉ]−Xˉ≤2n2∑i=1n(bi−ai)2lnδ1
N = ( b − a ) 2 ln 1 δ 2 ϵ 2 N = \frac{ (b -a )^2\ln\frac{1}{\delta }}{2\epsilon^2} N=2ϵ2(b−a)2lnδ1
类似这样的结论对于算法的收敛性分析和有限样本表现分析非常有用