来源:青榴实验室
1、引子
深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。
在本文中,我们将了解深度神经网络的基础知识和三个最流行神经网络:多层神经网络(MLP),卷积神经网络(CNN)和递归神经网络(RNN)。
2、什么是深度神经网络
机器学习是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。如果论及哪一个机器学习的领域最为热门,非人工智能莫属,这就是深度学习。深度学习框架又名深度神经网络,一个复杂的模式识别系统,在过去的几十年里,机器学习给我们的日常生活带来了巨大的影响,包括高效的网络搜索、自动驾驶系统、计算机视觉和光学字符识别。
深度神经网络模型已经成为机器学习和人工智能的有力工具。深度神经网络(DNN)的输入层和输出层之间有多层的人工神经网络(ANN)。
深层神经网络的迅速发展应用致使语音识别错误率上较传统语音识别方法错误率减少30%(20年来最大降幅),同时也大幅削减了图像识别的错误率,自2011年以来深度学习图像识别的错误率从26%到3.5%,而人类是5%。
深度神经网络模型最初是基于神经生物学的启发。生物神经元通过与树突的突触接触接收多个信号,并通过轴突发送单一的动作电位流。通过对输入模式进行分类,可以降低多个输入的复杂性。受这种输入输出方式的启发,人工神经网络模型由组合多个输入和单一的输出单元组成。神经网络以模拟人类大脑的功能为目标,并基于一个简单的人工神经元:输入信号的加权和的非线性函数(如max(0, value))。这些伪神经元被聚合成层,一层的输出成为序列中下一层的输入。
4、 深度神经网络的“深”
深度神经网络在神经网络中采用了深度结构。“深”是指在层次数和单层单元数的深兼具较高复杂性的功能。云计算中的大型数据集可以通过使用额外的和更大的层来捕获更高级数据模式来构建更精确的模型。神经网络的两个阶段被称为训练(或学习)和推断(或预测),它们指的是发展和生产。开发人员选择神经网络的层数和类型,训练确定权值。
多层感知器(MLP)是一类前馈人工神经网络(ANN)。MLPs模型是最基本的深度神经网络,其将输入的多个数据集映射到单一的输出的数据集上,由一系列全连接层组成。每一层都是一组非线性函数,它们是前一层所有输出(完全连通)的加权和。
功能函数:
5.2 卷积神经网络(CNN)
卷积神经网络(CNN,或ConvNet)是另一类深度神经网络。CNN最常用于计算机视觉。给定一系列来自现实世界的图像或视频,AI系统利用CNN学习自动提取这些输入的特征来完成特定的任务,如图像分类、人脸认证、图像语义分割等。
与MLP中的完全连接层不同,在CNN模型中,一个或多个卷积层通过执行卷积操作从输入中提取简单特征。每一层都是一组非线性函数,这些函数的加权和位于前一层输出的空间附近子集的不同坐标上,允许权重被重用。
应用各种卷积滤波器,CNN模型可以高水平准确地捕获输入数据,使其成为最受欢迎的计算机视觉应用技术,如图像分类(例如,AlexNet, VGG网络,ResNet, MobileNet)和目标检测(例如,Fast R-CNN, Mask R-CNN, YOLO, SSD)。
AlexNet。在图像分类方面,作为2012年第一个赢得ImageNet挑战赛的CNN, AlexNet由5个卷积层和3个全连接层组成。AlexNet需要6100万个权重和7.24亿个mac(乘法加法计算)来对大小为227×227的图像进行分类。
VGG-16。为了达到更高的精度,vg -16被训练为一个更深层次的16层结构,由13个卷积层和3个全连通层组成,需要1.38亿权值和15.5G mac对大小为224×224的图像进行分类。
GoogleNet。为了提高准确性,同时减少DNN推理的计算,GoogleNet引入了一个由不同大小的过滤器组成的初始模块。google et比vg -16具有更好的精度性能,而处理相同大小的图像只需要700万权重和1.43G mac。
ResNet。最新的研究成果ResNet使用了“快捷”结构,达到了人类平均水平的准确率,前5名的错误率低于5%。“捷径”模块用于解决训练过程中的梯度消失问题,使训练具有更深结构的DNN模型成为可能。
近年来CNN的准确率和性能逐渐提高,应用于人们人工智能视觉任务的,超过了人类视觉的平均水平错误率低于5%。
5.3 递归神经网络(RNN)
递归神经网络(RNN)是另一类使用顺序数据输入的人工神经网络。RNN是用来解决序列输入数据的时间序列问题的。
RNN的输入由当前输入和之前的样本组成。因此,节点之间的连接沿时间序列形成有向图。RNN中的每个神经元都有一个内部存储器,它保存着来自前一个样本的计算信息。
RNN模型在处理输入长度不固定的数据方面具有优势,因此在自然语言处理中得到了广泛的应用。人工智能的任务是建立一个能够理解人类说的自然语言的系统,例如自然语言建模、单词嵌入和机器翻译。
在RNN中,每一层都是输出和前一层状态的加权和的非线性函数集合。RNN的基本单元称为“Cell”,每个Cell层由一系列的Cell组成,层层传递处理使RNN模型能够进行顺序处理。
6、深度神经网络应用
深度学习现在已经应用到生活各领域:
1.深度学习应用在音视频的识别上,几乎所有的商用语音识别都是深度学习来完成的,如自然语言理解方面,主要是使用一种叫做LSTM的深度学习方法。
2.深度学习应用于图像识别,目前识别准确率已经超越人类,深度学习成了图像识别的标配。其中图像识别中,应用最广的是人脸识别。
总之深度神经网络已经深入便捷了人们生活,各类自动驾驶车辆,各种类型的人工智能机器人,智能回答,智能翻译,天气预报,股票预测,人脸比对,声纹比对,等其他许多有趣的应用,比如智能插画,自动作诗,自动写作文,等都可以通过深度学习来完成深度神经网络。
END
欢迎加入Imagination GPU与人工智能交流2群
入群请加小编微信:eetrend89
(添加请备注公司名和职称)
推荐阅读
对话Imagination中国区董事长:以GPU为支点加强软硬件协同,助力数字化转型
Imagination携手飞桨等多家伙伴联合发布 AI Studio硬件生态专区
Imagination Technologies 是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作 场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!