01 | 机器学习_频率视角下的机器学习

频率统计理论的核心在于,认定的估计得成熟,是固定不变的常量,讨论参数的概率分布是没有意义的,我用来估计参数的数据是随机的变量,每个数据都是常数支配,下一次独立实验的结果。由于参数本身是确定的,那频率的波动,就并非来源于参数本身的不确定性,而是由有限次观察造成的干扰而导致。

所以呢,我们需要考虑的是,一方面,根据这些不精确的数据,就可以对未知参数的精确取值作出有效的推动,另一方面,数据中包含的只是关于参数不完全的信息,所以从样本估计整体就必然会产生误差。

所以我们要做的第1步就是要做采样分布。所以当我们把采样分布做完后,参数估计可以等效成一个最优化问题,也就是最大似然估计。

那最大似然估计又是什么?他的目标是让自然概率最大化,也就是固定参数的前提之下,数据出现的条件概率最大化。所以频率学派估计参数的基本出发点,一组数据之所以能够在单次试验中出现,是因为他出现的可能性最大,而参数估计的过程就是赋予观测数据最大似然概率的过程。


image.png

所以当我们要用最大似然估计解决这个问题的时候,首先就要对自然概率进行建模,面膜中的一个重要假设就是假定未知形式的噪声满足高斯分布。所以呢,从理论上说,在功率有限的条件下,高斯噪声信源熵最大,因而带来的不确定性也就越大,换句话说,这是最恶劣的噪声。从实践上说,真实的噪声通常来源于多个独立的物理过程,都具有不同的概率分布,中心极限定理告诉我们,按照噪声源的数目越来越多时,它们的叠加趋近于高斯分布,因而高斯噪声,对真实情况的一个合理模拟。

01 | 机器学习_频率视角下的机器学习_第1张图片
image.png
01 | 机器学习_频率视角下的机器学习_第2张图片
image.png
01 | 机器学习_频率视角下的机器学习_第3张图片
image.png
01 | 机器学习_频率视角下的机器学习_第4张图片
image.png

所以当我们从这些公式上可以发现,虽然真实值是固定值,但估计值却是数据的函数,也是个随机变量。
所以在这里我们需要引入另外一个概念,用来度量随机变量的估计值和作为客观常量的真实值之间的偏差,置信区间。

所以,这个思路它其实是把可能的参数空间压成一个点,参数本身可能满足这样或那样的概率分布,但一旦实验的条件确定,表现出来就是一个固定的取值,让所有的概率分布都失去了意义。这就想说,即使上帝真的掷色子,但从脱手那一刻起,他的点数就不再受上帝的控制,也就变成了确定不变的取值。所以频率主义者关注的就是这个真实存在的唯一参数,通过计算它对数据的影响来实现估计。
在这里我们将频率主义“参数确定,数据随机”的思路应用在机器学习当中得到的,得到的就是统计机器学习。统计机器学习的做法是通过对给定的指标,比如似然函数或,均方误差进行最优化,来估计模型中参数的取值。估计时并不考虑参数的不确定性,也就是不考虑未知参数的先验分布,和参数相关的信息全部来源于数据,输出的则是未知参数,唯一的估计结果,这就是统计机器学习的核心特征。

受到任何干扰的影响,观测数据并不是未知参数的准确反映,因此如何衡量估计结果的精确程度,就成为统计机器学习中的一个关键问题。损失函数直接定义了模型性能的度量方式,其数学期望被称为风险,风险最小化就是参数估计的依据和准则,但风险的计算并不能一蹴而就:估计追求参数需要计算风险,计算风险时需要在数据的概率分布上被损失函数进行积分,他表示数据的分布又依赖未知参数的精确取值,这就给频率主义出了一个无解的问题,风险函数是没有办法精确求解。

为了解决这个问题,统计机器学习引入了经验风险,用训练数据的经验分布替换掉原始表达式中数据的真实分布,因此将分解函数转化成了可计算的数值,在真实的学习算法中,无论是分类问题中的误分类率,还是回归问题中的均方误差,都是经验风险的实例,我所谓的最优模型也就是使经验风险最小化的那个模型。

所以今天
第1点,频率学派认为概率是随机事件发生频率的极限值。
第2点,频率学派执行参数估计时,视参数为确定取值,视数据为随机变量。
第3点,频率学派主要使用最大似然估计法,,让数据在给定参数的自然概率最大化。
第4点,频率学派对应机器学习中的统计学习,以经验风险最小化作为模型选择的准则。

你可能感兴趣的:(01 | 机器学习_频率视角下的机器学习)