机器学习中常用的不等式

目录

1. 马尔可夫不等式

 2. 切比雪夫不等式

3.  坎泰利不等式

4.  佩利-齐格蒙德不等式

 5. 霍夫丁不等式

 6. 柯尔莫哥洛夫不等式

7. 最大值不等式

 8. 麦克迪尔米德不等式

 9. 平斯克不等式


1. 马尔可夫不等式

马尔可夫不等式为一个非负随机变量大于等于一个正值的概率给出了上界

此不等式以数学家马尔可夫命名,但由于它在马尔可夫的老师切比雪夫的工作中出现,也被称作切比雪夫不等式。为了和一般所指的切比雪夫不等式区分开,马尔可夫不等式被称作切比雪夫第一不等式,而一般所指的切比雪夫不等式被称作切比雪夫第二不等式

定理:

若 X 是一个非负随机变量,且a>0 ,那么

机器学习中常用的不等式_第1张图片

 2. 切比雪夫不等式

切比雪夫不等式指出,随机变量偏离其期望超过t个标准差的概率以\frac{1}{t^{_{2}}}为界。

 切比雪夫不等式的用途和正态分布的 68−95−99.7 法则类似,但可以应对更一般的概率分布。

 此不等式保证,对于一系列范围很广的随机变量,有至少 75% 的值分布离期望两个标准差之内的范围当中,有至少 88.9% 的值分布离期望三个标准差之内的范围当中。

切比雪夫不等式是马尔可夫不等式的直接推论。

 机器学习中常用的不等式_第2张图片

 定理2.1(切比雪夫不等式):

若 X是一个随机变量,其方差为\sigma ^{2}\in \left ( 0,\infty \right ) ,那么

机器学习中常用的不等式_第3张图片

定理 2.2(弱大数定律

\left ( X_{n} \right )_{n\in N} 为独立随机变量序列,其中所有 X_{i} 均值相等,且方差均为\sigma ^{2}\in \left ( 0,\infty \right ) ,并令 \bar{X_{n}}=\frac{1}{n}\sum_{i=1}^{n}X_{i}。那么,对于任意 \varepsilon >0

 机器学习中常用的不等式_第4张图片

机器学习中常用的不等式_第5张图片

3.  坎泰利不等式

坎泰利不等式(Cantelli's inequality)是对切比雪夫不等式单边尾界(tail bound)的改进。尽管此不等式以数学家坎泰利命名,它在切比雪夫的工作中已经出现。

定理 3.1(坎泰利不等式)X是一个随机变量,其方差为\sigma ^{2}\in \left ( 0,\infty \right ) ,那么,对于 \lambda >0

机器学习中常用的不等式_第6张图片

 切比雪夫不等式和坎泰利不等式用到的是随机变量的二阶矩(second-order moment),而若用到更高阶的矩,我们可以得到更强的不等式,比如何-张-张不等式。此不等式指出,若随机变量X  满足E[X]=0 ,且 E[X^{2}]=1,则

 机器学习中常用的不等式_第7张图片

4.  佩利-齐格蒙德不等式

前面的不等式为尾部概率给出了上界,而佩利-齐格蒙德不等式(Paley-Zygmund inequality)为尾部概率给出了下界。此不等式表述如下。

定理 4.1(佩利-齐格蒙德不等式)X是一个非负随机变量,且t\in [0,1] ,那么

机器学习中常用的不等式_第8张图片

 5. 霍夫丁不等式

对于有界独立随机变量之和S ,霍夫丁不等式(Hoeffding's inequality)给出了S  偏离其期望的概率的上界。若随机变量 X_{i} 在区间 [a_{i},b_{i}] 上取值,那么霍夫丁不等式说指出,n 个随机变量之和 S_{n} 满足

机器学习中常用的不等式_第9张图片

 6. 柯尔莫哥洛夫不等式

柯尔莫哥洛夫不等式(Kolmogorov's inequality)又被称作最大值不等式(maximal inequality),它为随机变量的部分和(partial sum)的绝对值的最大值的尾部概率给出了上界。

7. 最大值不等式

除了柯尔莫哥洛夫的最大值不等式,我们再介绍两个关于随机变量的最大值的期望的不等式。对于满足一定条件的随机变量,这两个不等式中的上界由样本数的对数决定。

定理 8.1(最大值不等式)X_{1},...X_{n}  为实值独立随机变量,使得对于任意k\in {1,...,n}  和 t>0,其中r>0 。那么,

机器学习中常用的不等式_第10张图片

 8. 麦克迪尔米德不等式

麦克迪尔米德不等式(McDiarmid's inequality)是机器学习中很重要的一个不等式,对于关于独立随机变量的函数的样本值与期望值的偏离,它给出了界。此不等式成立的条件是有界差性质(bounded difference property),即当我们只改变多元函数的一个变量时,函数值的差不能太大。

机器学习中常用的不等式_第11张图片

机器学习中常用的不等式_第12张图片

 9. 平斯克不等式

平斯克不等式(Pinsker's inequality)用 KL 散度(Kullback–Leibler divergence)为两个分布的总变分距离(total variation distance)给出了界。

你可能感兴趣的:(Deep,learning,python,人工智能)