在概率论中,集中不等式提供了随机变量偏离一些值(如期望)的上限。
假设 X X X是一个非负的随机变量,对于所有常数 α > 0 \alpha > 0 α>0,有:
P ( X ≥ α ) ≤ E ( X ) α P(X \geq \alpha) \leq \frac{E(X)}{\alpha} P(X≥α)≤αE(X)
关于马尔科夫不等式的拓展,如果 ϕ \phi ϕ是一个严格递增且非负的函数,有:
P ( X ≥ α ) = P ( ϕ ( X ) ≥ ϕ ( α ) ) ≤ E ( ϕ ( X ) ) ϕ ( α ) P(X \geq \alpha) = P(\phi(X) \geq \phi(\alpha))\leq \frac{E(\phi(X))}{\phi(\alpha)} P(X≥α)=P(ϕ(X)≥ϕ(α))≤ϕ(α)E(ϕ(X))
对于随机变量 X X X,对于所有常数 α > 0 \alpha > 0 α>0,有:
P ( ∣ X − E ( X ) ∣ ≥ α ) ≤ V a r ( X ) α 2 P(|X-E(X)| \geq \alpha) \leq \frac{Var(X)}{\alpha^{2}} P(∣X−E(X)∣≥α)≤α2Var(X)
或者表示为:
P ( ∣ X − E ( X ) ∣ ≥ α ⋅ S t d ( X ) ) ≤ 1 α 2 P(|X-E(X)| \geq \alpha \cdot Std(X)) \leq \frac{1}{\alpha^{2}} P(∣X−E(X)∣≥α⋅Std(X))≤α21
其中, S t d ( X ) Std(X) Std(X)是随机变量 X X X的标准差。切比雪夫不等式是马尔科夫不等式对于随机变量 X − E ( X ) X-E(X) X−E(X)的情况,所以说切比雪夫不等式是马尔科夫不等式的特殊情况,并且这两个不等式的提出者巴夫尼提·列波维奇·切比雪夫和安德雷·马尔可夫是师生关系。
上面的马尔科夫和切比雪夫不等式都是一般性的,收敛性都比较 loose,为了得到收敛性更强的不等式,也就是指数形式的不等式,
对于独立随机变量 X 1 , X 2 , . . . , X n X_{1}, X_{2}, ..., X_{n} X1,X2,...,Xn,对于所有的 X i X_{i} Xi有 a i ≤ X i ≤ b i a_{i} \leq X_{i} \leq b_{i} ai≤Xi≤bi, S n = ∑ i = 1 n X i S_{n} = \sum_{i=1}^{n}X_{i} Sn=∑i=1nXi, E n = E ( S n ) = ∑ i = 1 n E ( X i ) E_{n} = E(S_{n})= \sum_{i=1}^{n}E(X_{i}) En=E(Sn)=∑i=1nE(Xi),可以得到随机变量的和与其期望偏差之间的上界,有不等式:
P ( ∣ S n − E n ∣ ≥ t ) ≤ 2 e x p ( − 2 t 2 ∑ i = 1 n ( a i − b i ) 2 ) P(|S_{n} - E_{n}| \geq t) \leq 2 exp(-\frac{2t^{2}}{\sum_{i=1}^{n}(a_{i} - b_{i})^{2}}) P(∣Sn−En∣≥t)≤2exp(−∑i=1n(ai−bi)22t2)
也可以得到随机变量的算数平均值与其期望之间的偏差之间的上界,有不等式:
P ( ∣ X n ˉ − E ( X n ˉ ) ∣ ≥ t ) ≤ 2 e x p ( − 2 n 2 t 2 ∑ i = 1 n ( a i − b i ) 2 ) P(|\bar{X_{n}} - E(\bar{X_{n}})| \geq t) \leq 2 exp(-\frac{2n^{2}t^{2}}{\sum_{i=1}^{n}(a_{i} - b_{i})^{2}}) P(∣Xnˉ−E(Xnˉ)∣≥t)≤2exp(−∑i=1n(ai−bi)22n2t2)
班纳特不等式也是用于衡量独立随机变量的和与其期望之间偏差。与Hoeffding的不等式相比,当和的方差小于它们几乎确定的界限时,Bennett不等式提供了一些改进。
对于独立随机变量 X 1 , X 2 , . . . , X n X_{1}, X_{2}, ..., X_{n} X1,X2,...,Xn,对于所有的 X i X_{i} Xi有 X i ≤ a X_{i} \leq a Xi≤a, S n = ∑ i = 1 n X i S_{n} = \sum_{i=1}^{n}X_{i} Sn=∑i=1nXi, E n = E ( S n ) = ∑ i = 1 n E ( X i ) , V n = V a r ( S n ) = ∑ i = 1 n V a r ( X i ) E_{n} = E(S_{n}) = \sum_{i=1}^{n}E(X_{i}),V_{n} = Var(S_{n}) = \sum_{i=1}^{n}Var(X_{i}) En=E(Sn)=∑i=1nE(Xi),Vn=Var(Sn)=∑i=1nVar(Xi)可以得到随机变量的和与其期望偏差之间的上界,有不等式:
P ( ∣ S n − E n ∣ ≥ t ) ≤ 2 e x p ( − V n a 2 h ( a t V n ) ) P(|S_{n} - E_{n}| \geq t) \leq 2 exp(-\frac{V_{n}}{a^{2}}h(\frac{at}{V_{n}})) P(∣Sn−En∣≥t)≤2exp(−a2Vnh(Vnat))
其中, h ( u ) = ( 1 + u ) l o g ( 1 + u ) − u h(u) = (1+u)log(1+u) - u h(u)=(1+u)log(1+u)−u
对于独立随机变量 X 1 , X 2 , . . . , X n X_{1}, X_{2}, ..., X_{n} X1,X2,...,Xn,对于所有的 X i X_{i} Xi有 b i ≤ X i ≤ a i b_{i} \leq X_{i} \leq a_{i} bi≤Xi≤ai, b i − a i ≤ C b_{i} - a_{i}\leq C bi−ai≤C, S n = ∑ i = 1 n X i S_{n} = \sum_{i=1}^{n}X_{i} Sn=∑i=1nXi, E n = E ( S n ) = ∑ i = 1 n E ( X i ) , V n = V a r ( S n ) = ∑ i = 1 n V a r ( X i ) E_{n} = E(S_{n}) = \sum_{i=1}^{n}E(X_{i}),V_{n} = Var(S_{n}) = \sum_{i=1}^{n}Var(X_{i}) En=E(Sn)=∑i=1nE(Xi),Vn=Var(Sn)=∑i=1nVar(Xi)可以得到随机变量的和与其期望偏差之间的上界,有不等式:
P ( ∣ S n − E n ∣ ≥ t ) ≤ 2 e x p ( − t 2 / 2 V n + C t / 3 ) P(|S_{n} - E_{n}| \geq t) \leq 2exp(-\frac{t^{2}/2}{V_{n} + Ct/3}) P(∣Sn−En∣≥t)≤2exp(−Vn+Ct/3t2/2)
这是Hoeffding的一个推广,因为它不仅可以处理独立变量,也可以处理弱独立变量。
集中不等式在实际中经常会被用到,而在使用这些集中不等式的时候,对数据分布也是有要求的, 通常是假设数据的分布函数是具有尾部收敛性质。
Wiki Concentration Inequality