机器学习入门----从宏观至核心的理解

本文内容:数学建模,损失函数,结构风险,过拟合,SRM等

一·提前总结:

机器学习入门----从宏观至核心的理解_第1张图片


二·宏观概念:数学建模&机器学习&深度学习

1.数学建模:以数学公式为手段对现实模拟。

应用举例:降雨后的洪水计算,得到洪水过程线。

  • 现象:中小流域按照水往低处流来划分流域。
  • 思想:建模后,依赖一定的策略通过算法调整参数,模型结果与实际结果在误差范围内一致,不断调整减少误差。
  • 建模:初步计算参数建模,然后通过三个公式模拟产流、汇流、河道演算

启发式算法:

  • 概念:直白解释就是通过仿生学现象抽象出来的经验,指导求最优解的一个技术统称,目前还没有完备理论体系。
  • 作用:常常来解决NP-hard难题
  • 算法:遗传算法、退火算法、人工鱼群算法、蜂群算法、人工神经网络(ANN)等

2.机器学习:损失函数为核心

  • 概念:机器学习是,寻找目标函数,最小化函数误差的过程。
  • 特点:算法都在围绕准确率算损失,找到模型正确率与真实值的距离测度。
  • 算法:多元线性回归,逻辑回归,SVM,决策树,随机森林,聚类。
  • 举例:GBDT在不断的提高错误样本的权重以达到提高准确率。
  • 分类:监督学习,无监督学习,强化学习
    • 监督学习:分类问题,回归问题;样本有标记,算法进行打标记
    • 无监督学习:聚类问题,数据降维问题;样本无标注,自行寻找规律
    • 强化学习:游戏AI,推荐系统;受到行为主义心理学启发,在不断试错中反馈激励进行学习;马尔可夫决策过程(MDP)

3.深度学习:人工神经网络支撑

  • 概念:具有阶层结构,基于ANN的机器学习,可以构建端对端的监督/无监督学习,也可以构建强化学习,形成深度强化学习
  • 特点:目前准确率最高的人工智能手段,可以突破机器学习不能搞定的特征问题,极大提升准确率。
  • 算法:有深度神经网络、卷积神经网络,循环神经网络。
  • 扩展:迁移学习,基于已有模型进行多分支再训练的过程

4.总结:【损失函数才是贯彻三者的衡量标准】


三·机器学习衡量标准:损失函数&风险函数

1.目标函数:

  • 概念:目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。
  • 作用:几乎所有的机器学习算法最后都归结为求解最优化问题,寻找尽量模拟真实状况的函数,即确定目标函数。
  • 思想:合理的目标函数,是机器学习算法的关键,一旦目标函数确定,接下来就是求解最优化问题。

2.损失函数(loss function)&代价函数(cost function)

  • 概念:损失函数也叫代价函数,度量单次模型预测的好坏,鉴别模型质量的函数,与之成反比。
  • 关系:目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数
  • 作用:评估模型单次预测的质量,反映模型与实际数据差距的工具,损失函数越小,模型拟合的越好;但要注意避免过拟合,需要风险函数配合
  • 公式举例:(模型值-真实值)**2,实际是取绝对值,平方方便计算。[如图]
  • 包括
    1.0-1损失函数(0-1 lossfunction)
    2.平方损失函数(quadraticloss function)
    3.绝对损失函数(absoluteloss function)
    4.对数损失函数(logarithmicloss function)或对数似然损失函数(log-likelihood loss function)
    5.交叉熵函数(cross-entropy function) 在深度神经网络中被广泛使用

3.风险函数(risk function)

  • 概念: 风险函数是损失函数的期望,表达平均意义上的模型预测的好坏。
  • 包括: 期望风险,经验风险,结构风险

4.期望风险:

  • 概念:基于全局样本的损失函数,是理想化结果,无法求得。

5.经验风险(Empirical risk):

  • 概念基于训练集的平均损失函数称作经验风险。
  • 公式:对训练集中所有损失函数的累加结果[如图]
  • 应用:ERM
    机器学习入门----从宏观至核心的理解_第2张图片

6.结构风险(Structural risk):

  • 概念:基于经验风险加上一个正则化项(regularizer)/罚项(penalty)的加强函数,即保证ERM的同时,考虑置信范围。
  • 公式:对经验风险公式增加一个正则化项(regularizer)[如图]
  • 应用:SRM
    机器学习入门----从宏观至核心的理解_第3张图片

四·机器学习核心:SRM结构风险最小化

1.过拟合(over-fitting)

  • 概念:网上解释过于复杂,看图理解即可,左边欠拟合,中间为最佳拟合,右边过拟合。
  • 说明:模型的函数过于复杂,对历史的训练数据拟合最好,经验风险最小,但对于测试数据以及生产预测误差大。[如图]
    机器学习入门----从宏观至核心的理解_第4张图片

2.VC维(Vapnik-Chervonenkis Dimension)

  • 概念:VC维度H是表示f(x)能打散(shatter)的最大样本数。
  • 作用:反映了模型的学习能力/复杂度/容量,过高通常会导致过拟合。
  • 示例:高次模型比低次模型VC维大
  • 图示:随着VC维增加,经验风险越小,置信范围风险越大,越不可信,两者均低于期望风险。[如图]
    机器学习入门----从宏观至核心的理解_第5张图片

3.ERM(Empirical risk minimization)

  • 概念经验误差最小化===[f1,f2,…]
  • 原理:在一组拟合函数中选择经验风险最小的函数,作为目标函数。
  • 背景:最小化一般误差是NP-hard难题,通常采用最小化经验误差(ERM)。
  • 实例:最大似然原则,神经网络等。
  • 思想:想要ERM的误差在一定的范围,训练样本的个数必须满足一定的大小要求.
  • 局限:只考虑偏差,不考虑方差,在样本数量有限时,会导致过拟合,进而提出结构风险最小化。

4.SRM(Structural risk minimization)

  • 概念结构风险最小化===[[…],[…],[…],…]。
  • 原理:是指把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列,在每个子集中寻找最小经验风险。
  • 作用:保证ERM的同时,考虑置信范围,达到降低VC维度,也叫正则化(regularization),以取得实际风险的最小化。
  • 实例:支持向量机(SVM方法)等。

五·机器学习总结

机器学习入门----从宏观至核心的理解_第6张图片

应用

  • 通常不使用训练误差(经验误差)来判断好坏,而是引入测试误差(基于测试集)来估计,即一般误差的另一个子集。

思想:测试误差+训练误差+样本复杂度(数量)=>推测结构风险=>调整模型:

1.欠样本:也就是训练样本m(样本复杂度)过小,而特征维数过大,容易造成过拟合.这时候可以考虑增加样本数量,或减低样本维数等. 百度维数灾难
2.过拟合:训练误差很小,测试误差很大.也就是偏差很小,方差很大.考虑过拟合,减小拟合函数VC维等.
3.欠拟合:训练误差,测试误差都很大,考虑欠拟合,增加拟合函数的VC维.

你可能感兴趣的:(人工智能)