原文发布于https://zybuluo.com/qqiseeu/note/109942
中心不等式(Concentration Inequality)是分析随机算法的经典工具,在机器学习算法的理论分析中也用的特别多。为了
学习这方面的知识,刚开始我选择的是Massart和Lugosi所著的Concentration Inequalities,无奈数学水平不够,看了一章就实在看不下去了。后来换了这本简单一些的Concentration of Measure for the Analysis of Randomized Algorithms,总算是能往后翻了。这个系列的文章作为读书笔记,希望能够督促自己坚持读完。
Concentration of meature可简单地理解为随机变量在其期望处“聚集”的行为。概率论中已经提供了两个经典工具————大数定律及中心极限定理————来刻画这种现象,然而它们所给出的结果存在几点不足:
Chernoff bounding technique指的是用moment-generating function来处理多个随机变量之和的期望的技巧。所谓moment-generating function被定义为随机变量 X 的指数函数的期望E[eλX]。
先来看一个简单的例子:考虑独立同分布的Bernoulli随机变量 Xi∼Bernoulli(p) 及它们的和 X=∑i∈[n]Xi ,易见 X∼Binomial(n,p) 。现在要估计 X 偏离其期望一定距离的概率,即Pr[X>n(p+t)]。先考虑一个一般性的情况:估计 Pr[X>m] 。由Markov不等式易得
根据 Xi 的独立性,上述式子中的moment-generating function可写成
其中 q=1−p . 再令 m=(p+t)n ,原不等式变为
将上述不等式右边视为 λ 的函数,找一个 λ>0 使右边最小,由此我们得到基本的Chernoff bound:
其中 DKL(⋅||⋅) 是KL-Divergence. 上述bound说明,当实际分布(的参数)是 (p,q) 时,观测到经验分布 (p+t,q−t) 的概率随着样本大小 n 的增加指数下降,且下降速率与实际分布及经验分布的KL-Divergence密切相关。
之前Chernoff bound的推导是在Xi为独立同分布的Bernoulli随机变量的假定下进行的,现在我们把上述bound推广到 Xi 是任意 [0,1] 间的独立随机变量的情况。首先考虑 Xi 是独立但非同分布的Bernoulli随机变量的情况。此时 X 的moment-generating function变为
根据Arithmetic-Geometric Mean Inequality易得
其中 p=∑ipi/n,q=1−p . 易见此时bound又变回了之前独立同分布时的形式,因此上一节得到的bound依然成立。
接下来考虑 Xi 是 [0,1] 上任意(既可以是离散也可以是连续的)独立随机变量的情况,使用的技巧是由Hoeffding提出的,因此最后得到的bound也叫Chernoff-Hoeffding bound。这里要利用函数 eλx 的凸性:在区间 [0,1] 上, eλx 的图像总在连接点 (0,1) 及 (1,eλ) 的直线之下。该直线的方程为 y=(eλ−1)x+1 ,因此有
故有
这与前述 Xi 是独立非同分布Bernoulli随机变量的情况一致,因此上一节得到的bound依然成立。
之前得到的bound都只利用了一阶矩(期望)的信息,作为Chernoff bounding technique的一个简单应用,我们考虑引入二阶矩(方差)的信息。这里的关键技巧是利用不等式 ex≤1+x+x2,0<|x|<1 为moment-generating function构造上界,从而引入二阶矩( x2 )。设 μi=E[Xi],μ=E[X] ,易知
利用之前提到的不等式及 ex≥1+x ,并假设 ∀i∈[n],max(μi,1−μi)<1/λ ,有
其中 σ2i,σ2 分别是 Xi,X 的方差。综上,有
针对 λ<max(μi,1−μi) 最小化该上界,易知当 λ=t/2σ2 时有
其中 t<2σ2/maxi {max(μi,1−μi)} .