集中不等式 (Concentration inequality)

在概率论中,集中不等式提供了随机变量偏离一些值(如期望)的上限。

马尔科夫不等式(Markov’s Inequality)

假设 X X X是一个非负的随机变量,对于所有常数 α > 0 \alpha > 0 α>0,有:
P ( X ≥ α ) ≤ E ( X ) α P(X \geq \alpha) \leq \frac{E(X)}{\alpha} P(Xα)αE(X)
关于马尔科夫不等式的拓展,如果 ϕ \phi ϕ是一个严格递增且非负的函数,有:
P ( X ≥ α ) = P ( ϕ ( X ) ≥ ϕ ( α ) ) ≤ E ( ϕ ( X ) ) ϕ ( α ) P(X \geq \alpha) = P(\phi(X) \geq \phi(\alpha))\leq \frac{E(\phi(X))}{\phi(\alpha)} P(Xα)=P(ϕ(X)ϕ(α))ϕ(α)E(ϕ(X))

契比雪夫不等式(Chebyshev’s Inequality)

对于随机变量 X X X,对于所有常数 α > 0 \alpha > 0 α>0,有:
P ( ∣ X − E ( X ) ∣ ≥ α ) ≤ V a r ( X ) α 2 P(|X-E(X)| \geq \alpha) \leq \frac{Var(X)}{\alpha^{2}} P(XE(X)α)α2Var(X)
或者表示为:
P ( ∣ X − E ( X ) ∣ ≥ α ⋅ S t d ( X ) ) ≤ 1 α 2 P(|X-E(X)| \geq \alpha \cdot Std(X)) \leq \frac{1}{\alpha^{2}} P(XE(X)αStd(X))α21
其中, S t d ( X ) Std(X) Std(X)是随机变量 X X X的标准差。切比雪夫不等式是马尔科夫不等式对于随机变量 X − E ( X ) X-E(X) XE(X)的情况,所以说切比雪夫不等式是马尔科夫不等式的特殊情况,并且这两个不等式的提出者巴夫尼提·列波维奇·切比雪夫和安德雷·马尔可夫是师生关系。

霍夫丁不等式(Hoeffding’s Inequality)

上面的马尔科夫和切比雪夫不等式都是一般性的,收敛性都比较 loose,为了得到收敛性更强的不等式,也就是指数形式的不等式,

对于独立随机变量 X 1 , X 2 , . . . , X n X_{1}, X_{2}, ..., X_{n} X1,X2,...,Xn,对于所有的 X i X_{i} Xi a i ≤ X i ≤ b i a_{i} \leq X_{i} \leq b_{i} aiXibi S n = ∑ i = 1 n X i S_{n} = \sum_{i=1}^{n}X_{i} Sn=i=1nXi E n = E ( S n ) = ∑ i = 1 n E ( X i ) E_{n} = E(S_{n})= \sum_{i=1}^{n}E(X_{i}) En=E(Sn)=i=1nE(Xi),可以得到随机变量的和与其期望偏差之间的上界,有不等式:
P ( ∣ S n − E n ∣ ≥ t ) ≤ 2 e x p ( − 2 t 2 ∑ i = 1 n ( a i − b i ) 2 ) P(|S_{n} - E_{n}| \geq t) \leq 2 exp(-\frac{2t^{2}}{\sum_{i=1}^{n}(a_{i} - b_{i})^{2}}) P(SnEnt)2exp(i=1n(aibi)22t2)
也可以得到随机变量的算数平均值与其期望之间的偏差之间的上界,有不等式:
P ( ∣ X n ˉ − E ( X n ˉ ) ∣ ≥ t ) ≤ 2 e x p ( − 2 n 2 t 2 ∑ i = 1 n ( a i − b i ) 2 ) P(|\bar{X_{n}} - E(\bar{X_{n}})| \geq t) \leq 2 exp(-\frac{2n^{2}t^{2}}{\sum_{i=1}^{n}(a_{i} - b_{i})^{2}}) P(XnˉE(Xnˉ)t)2exp(i=1n(aibi)22n2t2)

班纳特不等式(Bennett’s Inequality)

班纳特不等式也是用于衡量独立随机变量的和与其期望之间偏差。与Hoeffding的不等式相比,当和的方差小于它们几乎确定的界限时,Bennett不等式提供了一些改进。

对于独立随机变量 X 1 , X 2 , . . . , X n X_{1}, X_{2}, ..., X_{n} X1,X2,...,Xn,对于所有的 X i X_{i} Xi X i ≤ a X_{i} \leq a Xia S n = ∑ i = 1 n X i S_{n} = \sum_{i=1}^{n}X_{i} Sn=i=1nXi E n = E ( S n ) = ∑ i = 1 n E ( X i ) , V n = V a r ( S n ) = ∑ i = 1 n V a r ( X i ) E_{n} = E(S_{n}) = \sum_{i=1}^{n}E(X_{i}),V_{n} = Var(S_{n}) = \sum_{i=1}^{n}Var(X_{i}) En=E(Sn)=i=1nE(Xi)Vn=Var(Sn)=i=1nVar(Xi)可以得到随机变量的和与其期望偏差之间的上界,有不等式:
P ( ∣ S n − E n ∣ ≥ t ) ≤ 2 e x p ( − V n a 2 h ( a t V n ) ) P(|S_{n} - E_{n}| \geq t) \leq 2 exp(-\frac{V_{n}}{a^{2}}h(\frac{at}{V_{n}})) P(SnEnt)2exp(a2Vnh(Vnat))
其中, h ( u ) = ( 1 + u ) l o g ( 1 + u ) − u h(u) = (1+u)log(1+u) - u h(u)=(1+u)log(1+u)u

伯恩斯坦不等式(Bernstein’s Inequality)

对于独立随机变量 X 1 , X 2 , . . . , X n X_{1}, X_{2}, ..., X_{n} X1,X2,...,Xn,对于所有的 X i X_{i} Xi b i ≤ X i ≤ a i b_{i} \leq X_{i} \leq a_{i} biXiai b i − a i ≤ C b_{i} - a_{i}\leq C biaiC, S n = ∑ i = 1 n X i S_{n} = \sum_{i=1}^{n}X_{i} Sn=i=1nXi E n = E ( S n ) = ∑ i = 1 n E ( X i ) , V n = V a r ( S n ) = ∑ i = 1 n V a r ( X i ) E_{n} = E(S_{n}) = \sum_{i=1}^{n}E(X_{i}),V_{n} = Var(S_{n}) = \sum_{i=1}^{n}Var(X_{i}) En=E(Sn)=i=1nE(Xi)Vn=Var(Sn)=i=1nVar(Xi)可以得到随机变量的和与其期望偏差之间的上界,有不等式:
P ( ∣ S n − E n ∣ ≥ t ) ≤ 2 e x p ( − t 2 / 2 V n + C t / 3 ) P(|S_{n} - E_{n}| \geq t) \leq 2exp(-\frac{t^{2}/2}{V_{n} + Ct/3}) P(SnEnt)2exp(Vn+Ct/3t2/2)
这是Hoeffding的一个推广,因为它不仅可以处理独立变量,也可以处理弱独立变量。

补充

集中不等式在实际中经常会被用到,而在使用这些集中不等式的时候,对数据分布也是有要求的, 通常是假设数据的分布函数是具有尾部收敛性质

REF

Wiki Concentration Inequality

你可能感兴趣的:(probability,and,statistics,集中不等式,concentration,inequality)