深度学习复习

分类性能度量

  • 精确率和召回率

向量范数,矩阵范数

范数

欠拟合、过拟合

与模型的variance, bias的关系

深度学习复习_第1张图片

抑制过拟合

  1. 使用归纳性更好的模型
  2. 使用数据扩增技术
  3. 降低模型的复杂度
  4. 增加更多的数据
  5. Dropout
    在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃
  6. 正则化

降维方法

  • LDA原理

    1. 线性判别分析(Linear Discriminant Analysis, 简称LDA )是一种监督学习的降维技术,即数据集的每个样本有类别输出。
    2. LDA的基本思想:“投影后类内方差最小,类间方差最大”。即将数据在低维度上进行投影,投影后希望同类数据的投影点尽可能接近,而不同类数据的类别中心之间的距离尽可能的大。
  • PCA原理

    1. 主成分分析(principal component analysis) 是一种无监督的降维方法。
    2. PCA的基本思想是采用数学变换,把给定的一组相关特征维度通过线性变换转成另一组不相关的维度(即principal components),这些新的维度按照方差依次递减的顺序排列:形成第一主成分、第二主成分等等。
  • PCA白化
    所谓的pca白化是指对上面的pca的新坐标X’,每一维的特征做一个标准差归一化处理。因为从上面我们看到在新的坐标空间中,(x1,x2)两个坐标轴方向的数据明显标准差不同,因此我们接着要对新的每一维坐标做一个标注差归一化处理:
    X P C A w h i t e ′ ′ = X ′ s t d ( X ′ ) X^{''}_{PCAwhite}=\frac{X^{'}}{std(X^{'})} XPCAwhite=std(X)X
    X P C A w h i t e ′ ′ = X ′ λ i + ϵ X^{''}_{PCAwhite}=\frac{X^{'}}{\sqrt{\lambda_i+\epsilon}} XPCAwhite=λi+ϵ X

  • 数据归一化

信息熵,交叉熵, KL散度, JS散度

  • 信息熵
    深度学习复习_第2张图片
  • 交叉熵
    交叉熵是信息论中一个重要的概念, 用于表征两 个变量概率分布
    P, Q(假设P表示真实分布, Q为模型预测的分布)的差异性 。交叉熵越大 , 两个变量差异程度越大。
    深度学习复习_第3张图片
  • 相对熵(relative entropy)
    也称为KL散度(Kullback–Leibler divergence,简称KLD)、信息散度
    (information divergence)、信息增益(information gain)。
    相对熵的定义:是交叉熵与信息熵的差值。表示用分布Q模拟真实分
    布P,所需的额外信息
    深度学习复习_第4张图片
    深度学习复习_第5张图片
    深度学习复习_第6张图片
  • JS散度
    JS散度(Jensen–Shannon divergence)具有对称性:
    由于KL散度不具对称性,因此JS散度在KL散度的基础上进行了改进。现有两个分布p1和p2,其JS散度公式为:
    在这里插入图片描述
  • 联合熵
    联合熵 (复合熵,Joint Entropy): 用H(X, Y)表示
    两个随机变量X,Y的联合分布的熵, 形成联合熵
  • 条件熵
    深度学习复习_第7张图片
  • 互信息
    深度学习复习_第8张图片

深度学习复习_第9张图片

感知机的原理

深度学习复习_第10张图片
深度学习复习_第11张图片

神经网络

基础知识,结构、激励函数及导函数、网络参数量计算等等

梯度下降法

  1. 初始化模型的参数,如权重和偏差等
  2. 把样本输入给模型,得到预测值
  3. 根据样本预测值和真实值之间的误差,计算损失函数
  4. 反向传播,按照梯度下降的方向改变神经元相应的权重值
  5. 迭代更新,直到模型整体误差小于阈值或者达到预定的迭代次数
  • 三种不同的形式
    批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)

神经网络-激励函数
深度学习复习_第12张图片
Softmax函数通常用在神经网络输出层中,以计算得到样本属于这K个类的概率,且使得这些概率的和等于1。其它函数不能满足这一要求。

深度学习复习_第13张图片

全连接网络和卷积神经网络

反向传播原理

如果经过正向传播,在输出层得不到期望的输出值,则利用输出与期望计算目标函数(损失函数),转入反向传播

反向传播需要逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯度,作为修改权值的依据。

联系区别

全连接神经网络:

不适合做图像识别原因:

  • 参数数量太多

  • 没有利用像素之间的位置信息
    对于图像识别任务来说,每个像素和其周围像素的联系是比较紧密的,和离得很远的像素的联系可能就很小了。如果一个神经元和上一层所有神经元相连,那么就相当于对于一个像素来说,把图像的所有像素都等同看待,这不符合前面的假设。当我们完成每个连接权重的学习之后,最终可能会发现,有大量的权重,它们的值都是很小的。努力学习大量并不重要的权重,这样的学习必将是非常低效的。

  • 网络层数限制
    我们知道网络层数越多其表达能力越强,但是通过梯度下降方法训练深度全连接神经网络很困难,因为全连接神经网络的梯度很难传递超过3层。因此,我们不可能得到一个很深的全连接神经网络,也就限制了它的能力。

卷积神经网络:
适合做图像识别:

  • 局部连接
    每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连。这样就减少了很多参数。
  • 权值共享
    一组连接可以共享同一个权重,而不是每个连接有一个不同的权重,这样又减少了很多参数。
  • 下采样
    可以使用Pooling来减少每层的样本数,进一步减少参数数量,同时还可以提升模型的鲁棒性。

对于图像识别任务来说,卷积神经网络通过尽可能保留重要的参数,去掉大量不重要的参数,来达到更好的学习效果。

卷积神经网络

原理和知识 卷积计算

  • 卷积层和降采样层交替组成网络
    经过卷积处理,生成的特征图(feature map)的数目可能和处理前的图像的数目相同,也有可能不相同
    经过降采样处理,生成的特征图(feature map)的数目通常和处理前的图像的数目相同

特点:

  • 局部卷积
  • 参数共享
    允许一个特征检测器在整个输入图像的不同位置使用,即可以把参数看成是卷积提取特征的方式,该方式与位置无关
  • 多卷积核
  • 池化操作
    也叫作降采样处理(down‐pooling),是对不同位置的特征进行聚合统计。通常是取对应位置的最大值(最大池化)、平均值(平均池化)。
  • 多层处理

正则化

  • 早期停⽌
    为避免过度拟合训练集,⼀个很好的解决⽅案就是尽早停⽌训练:只要在训练集的性能开始下降时中断

  • 权重衰减

  • L和12正则

  • 数据增强和提前终止

  • Dropout
    在每个训练步骤中,每个神经元(包括输⼊神经元,但不包括输出神经元)都有⼀个“丢弃”的概率p,这意味着在这个训练步骤中它将被完全忽略, 在下⼀步可能会激活。 超参数p称为丢失率,通常设为 50

循环神经网络

原理和知识

循环神经网络RNN的三个时间步
深度学习复习_第14张图片

  • RNN:隐藏层的节点之间有连接,是主要用于对序列数据进行分类、预测等处理的神经网络
  • 难以应对长期依赖

LSTM(Long Short-Term Memory)

输出门控制是否把长期状态作为当前的LSTM的输出,忘记门控制保存之前的长期状态,输入门控制更新长期状态,LSTM用三个控制门记忆长期状态。
深度学习复习_第15张图片

  • 即长短期记忆网络,是RNN的扩展,其通过特殊的结构设计来避免长期依赖问题。
  • LSTM中忘记门和输出门要用到乘法门,输入门要用到加法门。
  • 在计算当前时刻的输出时,直接利用到的是隐藏状态h。而在计算获得h的时候会用到长期状态c。
  • 忘记门层 的任务是从长期状态中“忘记”信息

递归神经网络

深度学习复习_第16张图片

  • 树结构基于句法分析器生成

  • 所有的词向量被存储在一个词嵌入矩阵中。随着训练的进行,该矩阵将被视为一种参数,因此会被学习调整

  • 每个词通常初始化表示为一个d维的向量,由一个随机均匀分布随机采样生成

  • 递归神经网络RNN (Socher et al., 2011)父节点的向量通过利用组合函数g由其孩子节点的向量得到。此时,通过乘以适当的参数矩阵,可以使得不同长度和句法类型的句子其组合词向量的维度都相同。

自编码网络

用许多无标签的数据学习得到数据通用的特征表示
使用自动编码器提取特征,并与有监督学习模型使用
尽管是一种无监督模型,但自动编码器仍存在损失函数,即重构自身的误差;自动编码器需要利用到在训练集上重构自身的损失函数来更新参数
自动编码器是一种无监督的学习模型,不会用到样本的类别标签,或者说输入的样本通常是不带标签的;

变分自编码网络(不用推导其原理)

  • 变分自动编码器主要用于生成新的样本

  • 变分自编码器(Variational Autoencoders,VAE)通常假设潜在变量 服从某种先验分布(如高斯分布)

  • VAE在自动编码机基础上加入了随机因子,这样就可以从该模型中采样得到新的数据

  • 变分自编码器在生成数据阶段只需要用到解码器,并采用随机采样的方式生成数据。

  • 变分编码器实际上是在优化数据的对数似然的下界,并求解参数

  • 训练过程中用到了KL散度的计算

  • 通常采用最大对数似然来学习得到模型的参数

生成对抗网络的原理和知识

原理

GAN (Generative Adversarial Networks)包括两部分:生成器和判别器。
生成器: 从随机噪声中生成图像(随机噪声通常从均匀分布或高斯
分布中获取)
判别器: 其输入为生成器生成的图像和来自训练集中的真实图像,
并对其进行判别。得到输出值为一个0到1之间的数,表示图像为真
实图像的概率,real为1,fake为0
深度学习复习_第17张图片

  • 目标函数
    在这里插入图片描述
    生成器的优化目标是是,尽可能生成让判别器难以辨认的图像,因此需要使得其取值尽可能地小。
    判别器训练阶段,为了得到较好的判别器,需要使得其取值尽可能大,即能够分辨真实和生成的图像

推土机距离生成对抗网络的目标函数

你可能感兴趣的:(机器学习,深度学习)