机器学习和概率统计的关系

机器学习和概率统计的关系

​ 机器学习是一个比较宽泛的概念,主要包括有监督学习,无监督学习,强化学习等,每个分类又有很多不同的算法,在使用时需要根据不同的场景进行选择,这个将会在后续的博客中涉及,这里就不展开叙述。现在的机器学习主要都是基于对现有样本的观测分析(统计)然后再对未知样本的预测(概率),我自己一个不严谨的说法就是机器学习是一种特殊的概率统计表现形式。机器学习和概率统计的关系_第1张图片

概率统计的关注点

​ 概率与统计的水很深,我们不是为了学习概率与统计,而是为了进行 机器学习而补充相关的概率统计知识,关键是打通概率与统计和机器学习的关系。概率统计根据是否已知整体进行区分:统计是已知一个样本的分布,并从中采样若干样本来计算分布的整体情况,如均值和方差等;概率是已知整体的情况,去预测某一种情况发生的概率,统计和概率互为逆工程。

机器学习和概率统计的关系_第2张图片

机器学习与概率统计的关系

​ 一个有监督学习算法,先要将带有标签的样本特征输入到算法模型中进行训练,然后将标签未知的样本特征喂给训练好的算法模型得到一个输出预测。对带有标签样本特征进行训练的过程就是我们统计的应用,就像对一个装有若干白球和黑球的桶我们进行多次的抓取采样,并记录我们采样的结果,根据采样的结果我们就可以估计出桶里的黑球和白球的分布,均值和方差等信息,这就是训练过程(统计);经过多次实验(当N趋于无穷大的时候,就有了大数定理)我们就可以比较准确的统计出所有样本的整体情况,有了对样本整体分布感知的模型,当来一个新的样本特征的时候,我就可以预测这个样本出现对应标签发生的概率是多少,这就是有监督学习算法,预测和训练与概率统计的关系。

机器学习和概率统计的关系_第3张图片

总结

1.有了对概率统计的了解,我们可以基于各个分布的特性来评估模型和样本。对于样本特征分布非常相似的我们可以去掉其中某一个特征,对样本特征与标签的分布完全不一致的,如果样本特征比较多可以考虑暂时去掉这一维度的特征。

  1. 训练,验证,测试样本希望是同分布的原因就是因为你在训练的时候用按照训练样本就行统计的,如果预测的时候样本分布发生变化,那预测的结果可想而知。

  2. 统计估计的是分布,机器学习训练出来的是模型,模型可能包含了很多分布。

你可能感兴趣的:(#,AI数学基础)