第2章 机器学习概述

系列文章目录

第1章 绪论
第2章 机器学习概述
第3章 线性模型
第4章 前馈神经网络
第5章 卷积神经网络
第6章 循环神经网络
第7章 网络优化与正则化
第8章 注意力机制与外部记忆
第9章 无监督学习
第10章 模型独立的学习方式
第11章 概率图模型
第12章 深度信念网络
第13章 深度生成模型
第14章 深度强化学习
第15章 序列生成模型


文章目录

  • 系列文章目录
  • 前言
    • 2.1 机器学习概述
    • 2. 1 基本概念
  • 2.2 机器学习三要素
    • 2.2.1 模型
    • 2.2.2 学习准则
      • 2.2.2.1 损失函数
      • 2.2.2.2 风险最小化准则
    • 2.2.3 算法优化
  • 2.3 线性回归
      • 2.3.1 模型
    • 2.3.2 优化方法
      • 2.3.2.1 经验风险最小化(最小二乘法)
        • 2.3.2.2结构风险最小化(岭回归)
      • 2.3.2.3最大似然估计
      • 2.3.2.4最大后验估计
  • 2.4 机器学习的几个关键点
    • 2.4.1 常见的机器学习类型
    • 2.4.2 如何选择一个模型
    • 2.4.3 PAC学习
  • 2.5 常用定理
    • 2.5.1 没有免费午餐定理
    • 2.5.2 丑小鸭定理
    • 2.5.3 奥卡姆剃刀原理
    • 2.5.4 归纳偏置
  • 总结


前言

本文对机器学习进行了了一个简要介绍。


2.1 机器学习概述

2. 1 基本概念

特征(Feature)、标签(Label)、样本(Sample)、示例(Instance)、数据集(Data Set)、训练集(Training Set)、训练样本(Training Sample)、测试集(Test Set)、测试样本(Test Sample)、特征向量(Feature Vector)、独立同分布的(Identically and Independently Distributed,IID)、学习算法(Learning Algorithm)、学习(Learning)、训练(Training)。

什么是机器学习

通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。
第2章 机器学习概述_第1张图片
机器学习能做什么
第2章 机器学习概述_第2张图片常见的机器学习问题
第2章 机器学习概述_第3张图片

2.2 机器学习三要素

2.2.1 模型

分为线性模型与非线性模型,左图是线性模型,右图是非线性模型。
第2章 机器学习概述_第4张图片

2.2.2 学习准则

测试集或验证集上期望风险最小。
在这里插入图片描述

2.2.2.1 损失函数

损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异。

0-1损失函数
第2章 机器学习概述_第5张图片平方损失函数
第2章 机器学习概述_第6张图片交叉熵损失函数
第2章 机器学习概述_第7张图片第2章 机器学习概述_第8张图片

Hinge损失函数

第2章 机器学习概述_第9张图片

2.2.2.2 风险最小化准则

经验风险
在这里插入图片描述
第2章 机器学习概述_第10张图片
结构风险最小
第2章 机器学习概述_第11张图片拟合问题
第2章 机器学习概述_第12张图片
最优化问题
机器学习问题最终转化成为一个最优化问题
第2章 机器学习概述_第13张图片

2.2.3 算法优化

梯度下降法( Gradient Descent )
第2章 机器学习概述_第14张图片随机梯度下降法
随机梯度下降法(Stochastic Gradient Descent,SGD)也叫增量梯度下降,每个样本都进行更新。
第2章 机器学习概述_第15张图片
小批量(Mini-Batch)随机梯度下降法

第2章 机器学习概述_第16张图片
泛化错误

第2章 机器学习概述_第17张图片如何减少泛化错误?

正则化
第2章 机器学习概述_第18张图片
提前停止
我们使用一个验证集(Validation Dataset)来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降,就停止迭代。
第2章 机器学习概述_第19张图片

2.3 线性回归

2.3.1 模型

第2章 机器学习概述_第20张图片
第2章 机器学习概述_第21张图片)

2.3.2 优化方法

2.3.2.1 经验风险最小化(最小二乘法)

模型
在这里插入图片描述
学习准则
第2章 机器学习概述_第22张图片
优化

第2章 机器学习概述_第23张图片
第2章 机器学习概述_第24张图片

2.3.2.2结构风险最小化(岭回归)

第2章 机器学习概述_第25张图片

2.3.2.3最大似然估计

似然的来源
第2章 机器学习概述_第26张图片从概率角度来看线性回归

假设标签y为一个随机变量,其服从以均值为f(x;w) = wTx,方差为σ^2 ^的高斯分布。
第2章 机器学习概述_第27张图片线性回归中的似然函数

参数w在训练集D上的似然函数(Likelihood)为
第2章 机器学习概述_第28张图片
最大似然估计
找到一组参数w使得似然函数p(y|X;w,σ)最大

第2章 机器学习概述_第29张图片

2.3.2.4最大后验估计

最大后验估计
第2章 机器学习概述_第30张图片第2章 机器学习概述_第31张图片

2.4 机器学习的几个关键点

2.4.1 常见的机器学习类型

第2章 机器学习概述_第32张图片

2.4.2 如何选择一个模型

模型选择
拟合能力强的模型一般复杂度会比较高,容易过拟合。
如果限制模型复杂度,降低拟合能力,可能会欠拟合。

第2章 机器学习概述_第33张图片
第2章 机器学习概述_第34张图片

2.4.3 PAC学习

PAC概念
第2章 机器学习概述_第35张图片
样本复杂度
第2章 机器学习概述_第36张图片

2.5 常用定理

2.5.1 没有免费午餐定理

没有免费午餐定理(No Free Lunch Theorem,NFL),对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。

2.5.2 丑小鸭定理

丑小鸭定理(Ugly Duckling Theorem),丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大。

2.5.3 奥卡姆剃刀原理

奥卡姆剃刀原理(Occam’s Razor),如无必要,勿增实体。

2.5.4 归纳偏置

很多学习算法经常会对学习的问题做一些假设,这些假设就称为归纳偏置。

在最近邻分类器中,我们会假设在特征空间中,一个小的局部区域中的大部分样本都同属一类。

在朴素贝叶斯分类器中,我们会假设每个特征的条件概率是互相独立的。

归纳偏置在贝叶斯学习中也经常称为先验(Prior)。


总结

你可能感兴趣的:(神经网路和深度学习,人工智能,深度学习)