中国工信出版集团、人民邮电出版社出版的赵卫东、董亮编著的《机器学习》慕课版
第11章 深度学习
1.深度学习的提出背景是什么?
解:深度学习是一种利用复杂结构的多个处理层来实现对数据进行高层次抽象的算法,是机器学习的一个重要分支。传统的BP算法仅有几层网络,需要手工指定特征且易出现局部最优问题,而深度学习引入了概率生成模型,可自动地从训练集提取特征,解决了手工特征考虑不周的问题。而且初始化了神经网络权重,采用反向传播算法进行训练,与BP算法相比取得了很好的效果。
2.讨论大数据技术对深度学习的促进作用。
解:除了组织存储的数据类型的不同,数据的绝对量是促进深度学习工具和技术发展的一个关键因素。新兴公司积累了足够的数据后,技术才能更好地发挥作用。例如Affectiva的前身是麻省理工学院媒体实验室在2009年推出的一个研究项目。最初,该公司的研究人员试图用一对夫妇的视频“训练”面部识别软件,用该软件解释实验者的情绪状态。多年来,Affectiva为数以百万计的人像镜头建立了视频库。现在,McDuff的机器学习算法能够更加准确地评估人的情绪。
3.比较深度学习主流的几种学习框架。
解:Torch:Lua语言编写的自带API的深度学习计算框架,支持机器学习算法,核心是以图层的方式定义网络,优点是包括了大量模块化的组件,可以快速进行组合,并且具有较多训练好的模型,可以直接应用。
TensorFlow:用Python API编写,对应的教程、资源、社区贡献都较多,支持深度学习、强化学习和其他算法的工具,支持数据和模型的并行运行。
Caffe:这是一款工业级深度学习工具,将Matlab实现的快速卷积神经网络移植到了C和C++平台上。不适用于文本、声音或时间序列数据等其他类型的深度学习应用。
Keras:是一个基于Theano和TensorFlow的深度学习库,具有较为直观的API,这可能是目前最好的Python API,未来可能会成为TensorFlow默认的Python API,更新速度较快,相应的资源也多,收到广大开发者追捧。
4.总结TensorFlow的功能和特点。
解:TensorFlow相比与其他框架有如下特点:
a.灵活,TensorFlow与CNTK、MXNET、Theano同属于符号计算构架,允许用户在不需要使用低级语言实现的情况下,开发出新的复杂层类型。基于图运算是其基本特点
b.便捷、通用
c.成熟
d.超强的运算性能,选择CPU和GPU来运算。
5.卷积神经网络适合解决什么问题?
解:卷积神经网络已经成为深度学习领域的热点,特别是在图像识别和模式分类方面。其优势是具有共享权值的网络结构和局部感知(也称为稀疏连接)的特点,能够降低神经网络的运算复杂度,减少了权值的数量,并可以直接将图像编码作为输入进行特征提取,避免了对图像的预处理和显式的特征提取。
6.描述卷积神经网络的结构。
解:卷积神经网络是一种稀疏的网络结构,其中卷积层和子采样层是特征提取功能的核心模块。卷积神经网络采用梯度下降的方式,应用最小化损失函数对网络中各节点的权重参数逐层调节,通过反向递推,不断地调整参数使得损失函数的结果逐渐变小,从而提升整个网络的特征描绘能力,使卷积神经网络分类的精确度和准确率不断提高。
7.举例说明卷积神经网络的应用。
解:图片检测问题:
a.分类问题:判断图中是否为汽车;
b.目标定位:判断是否为汽车,并确定具体位置;
c.目标检测:检测不同物体并定位。
8.常见的卷积神经网络有哪些?举例说明其中一种卷积神经网络的应用过程。
解:LeNet:LeNet网络是较早出现的卷积神经网络,在这个网络出现之后各类神经网络不断涌现。
AlexNet网络:这是最早的现代神经网络,这个模型证明了CNN在复杂模型下的有效性,使用GPU使得训练在可接受的时间范围内得到结果,推动了有监督深度学习的发展。
VGG网络:VGG的一个特点是层数多。VGG是5个group的卷积2层全连接层用于提取图像特征、一层全连接层用于分类特征。
VGG继承了LeNet以及AlexNet的一些框架,尤其是与AlexNet框架非常像,VGG也是5的卷积、2层全连接层用于提取图像特征、一层全连接层用于分类特征。根据前5个卷积层组每个组的不同配置,卷积层数从8~16递增。尽管VGG比Alex-net有更多的参数,更深的层次;但是VGG需要很少的迭代此处就开始收敛。这是因为深度和小的过滤尺寸起到了隐式的规则化的作用,并且一些层进行了预初始化操作。
9.卷积神经网络的各层激活函数如何选择?
解:常见卷积神经网络的激活函数有Sigmoid、tanh、ReLU函数。引入ReLU层的主要目标是解决线性函数表达能力不够的问题,线性整流层作为神经网络的激活函数可以在不改变卷积层的情况下增强整个网络的非线性特性,不改变模型的泛化能力的同时提升训练速度。
10.如何防止卷积神经网络的过拟合问题?
解:防止过拟合的方法有三类:人为增加数据集;正则化;Dropout。
在原有在训练图像识别的深度神经网络时,使用更多的图像数据集训练的模型会使训练的网络具有更好地泛化性能,减小过拟合。
正则化的作用是调节模型复杂度对损失函数的影响,若权重衰减很大,则复杂的模型损失函数的值也就大。
使用Dropout是在每次训练过程中随机将部分神经元的权重置为0,即让一些神经元失效,这样可以缩减参数量,避免过拟合。
11.简述循环神经网络模型的工作原理。
解:循环神经网络是一种对序列数据建模的神经网络。循环神经网络中一个当前神经元的输出与前面的输出也有关,网络会对前面的信息进行记忆并应用于当前神经元的计算中,即隐藏层之间的节点是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,循环神经网络可以对任何长度的序列数据进行处理。但是在实践中,为了降低复杂性往往假设当前的状态只与前面的几个状态相关。
12.循环神经网络的常见应用领域有哪些?
解:循环神经网络通常用于处理信息序列的任务。近年,RNN开始在自然语言处理、图像识别、语音识别、上下文的预测、在线交易预测、实时翻译等领域迅速得到大量应用。
13.举例说明循环神经网络的应用过程。
解:一个当前神经元的输出与前面的输出也有关。网络会对前面的信息进行记忆,并应用于当前神经元的计算中隐藏层之间的节点有连接。隐藏层的输入不仅包含输入层的输出还包含上一时刻隐藏层的输出。
参照基于循环神经网络算法的云计算负载均衡秒杀系统设计。
14.结合长短时记忆神经网络的结果解释其工作过程。
解:LSTM通过门控单元来实现循环神经网络中的信息处理,用门的开关程度来决定对哪些信息进行读写或清除。其中,门的开关信号由激活函数的输出决定,与数字开关不同,LSTM的门控为模拟方式,即具有一定的模糊性,并非0、1二值状态。例如Sigmoid函数输出为0,表示全部信息不允许通过;1表示全部信息都允许通过;而0.5表示允许一部分信息通过。这样的好处是易于实现微分处理,有利于误差反向传播。
15.举例说明长短时记忆网络的应用。
解:基于LSTM预测股票走势。
股票市场的股价、指数等数据是典型的时间序列形式,即每隔一个时间段就会生成一条数据,可以基于上证指数的收盘价来对其进行分析预测。
16.卷积神经网络如何进行调优?结合具体案例说明。
解:还可以引入软阈值化。软阈值化是降噪时的常用函数。在卷积神经网络中引入软阈值化,可以增强其在含噪数据上的效果。其中,最典型的就是深度残差收缩网络。