Deep learning--论文阅读笔记

摘要

深度学习:多个处理层组成的计算模型学习具有多层抽象级别的数据表示。

深度学习在语音识别、视觉对象识别、对象检测等领域已经发挥了重要作用。

通过反向传播算法指导深度学习模型内部的参数调优。

卷积神经网络在图像处理上取得突破,递归神经网络则更适合处理文本、语音之类的顺序数据。

正文

传统的机器学习受限于处理自然的原始数据的能力。需要专家精心设计特征提取器对数据进行处理。

深度学习的一层层处理越来越抽象的数据。关键之处在于每一层的功能不是由工程师设计的,而是自己在数据中学得的。

有监督学习

有监督学习:通过有标签的数据对机选模型进行训练,使得其表现越来越好(得分越来越高)。将权重值向量向梯度向量相反的方向调节,使得error尽可能小。

在训练模型是要注意参数向量困在一些特殊的点上以及要避免出现过拟合问题。

两张狗的图片像素差可能比一张狼和一张狗的差别还要大——这说明了好的特征提取器的重要性。(This is why shallow classifiers require a good feature extractor that solves the selectivity–invariance dilemma — one that produces representations that are selective to the aspects of the image that are important for discrimination, but that are invariant to irrelevant aspects such as the pose of the animal.)

多个非线性层使得模型对输入的一些细节更加敏感,更能凸显特征。

反向传播训练多层架构

只要计算模型是内部参数以及输入的相对平滑函数,就可已通过反向传播过程计算相应的梯度。利用目标函数(误差函数)梯度值从输入层到输入层逐层做权值反馈调节,降低目标函数值。

深度学习的许多应用都适用前馈神经网络体系结构,下一层计算上一层输入的加权总和,再将结果传递给非线性函数(例如ReLU:f(z)=max(z,0)),之后作为再下一层的输入。

现代理论及实践表明,模型陷入局部极小值的问题极少会出现。取而代之的是可能存在许多鞍点(在大部分方向上向上弯曲,极少方向向下弯曲)。

加拿大研究所在2006所做的关于无监督的深度前馈网络工作(预训练方法)重新激起了人们对深读网络的兴趣。这种预训练方法迅速在语音识别上得到应用别取得了很好的成绩。

除了相邻层全连接的神经网络外还存在特定连接类型的前馈神经网络,例如卷积神经网络。

卷积神经网络

一维信号如语音序列,二维信号如图像,三维信号如视频。卷积神经网络的四个关键思想:local connections, shared weights, pooling and the use of many layers.

典型的卷积神经网络的前几个阶段由卷积层和池化层组成(什么是卷积层和池化层?)。只利用局部单元计算下一单元,大大加快了计算速度,且图像局部高度相关,更易凸显局部特征。

池化是将图片分割成一块块补丁,典型的池化计算是要取每个补丁中的最大值最为一块补丁的输出。其作用是减小了表示的尺寸,并为小幅度的移位和失真创建了不变性。

自然信号分层次结构,从单一到组合,从局部到整体。深度神经网络正是抓住了这一特性。ConvNets中的卷积和池化层直接受到视觉神经科学中简单细胞和复杂细胞的经典概念的启发。

深度卷积网络中的图像理解

2012年,ImageNet竞赛上应用深度卷积网络将一百万个图像分为超过1000个类别,取得了惊人的好成绩,成功的原因在与有效的利用了GPU、ReLU、Dropout以及通过样本变形生成更多训练样本的技术。

硬件、软件和算法等方面的进步使得训练大规模卷积神经网络所需要花费的时间快速缩短。

分布式表示和语言处理

在引入神经语言模型之前,语言统建建模的做法是基于频率统计,如此N元语法的数量在V^N数量级上(V是词汇量)。N-grams将每个单词看做一个原子,无法对语义相关的单词序列进行泛华。而神经语言模型可以将每个单词与对应的特征向量相关联,语义相关的单词在向量空间中彼此靠近。

递归神经网络(RNN)

RNN擅长处理顺序输入序列的任务。RNN一次处理一个元素,并维护一个和过去元素有关的历史信息,即“状态向量”。RNN训练的问题在在于反向传播梯度在每个时间步长上都会增大或者缩小,进而积累成为爆炸或者消失。

RNN还可用于句子理解。将“英语编码器”处理一个英语句子后的最终状态向量作为“法语解码器”的输入,“法语解码器”自动输出法语句子表达原始的英语句子。

除了句子翻译,还可以进行图像“翻译”。利用ConvNet处理图像获得状态向量,在通过RNN解码器将状态向量转换成英语句子。

Although RNNs’ main purpose is to learn long-term dependencies, theoretical and empirical evidence shows that it is difficult to learn to store information for very long. 解决此问题的方法是使用LSTM网络、存储网络等。

深度学习的未来

无监督学习会越来越重要;
深度学习与强化学习(接收反馈激励)的结合;
在自然语言理解上在选择性地关注部分内容上能够有更好的策略;
深度学习和简单推理相结合使得人工智能取得重大进步。

你可能感兴趣的:(Deep learning--论文阅读笔记)