《中国人工智能学会通讯》——2.17 面向深度学习的计算机系统结构

2.17 面向深度学习的计算机系统结构

深度学习[1-2]采用多层神经元网络,在包括图像识别[2] 、自然语言处理 [3]以及语音识别[4]等多个领域都表现出了巨大潜力,引发了产业界和学术界的广泛关注。人们发现,通过使用更多的训练数据和更大的模型规模(更多的参数),能够显著提高最终的识别效果。例如 Google 大脑计划使用的神经元网络有超过 10 亿个参数[5] 。

因此,如何能够快速地训练大规模深度学习神经元网络成为一个重要的问题。更大的模型规模会带来的问题是需要更多内存和更长的训练时间。当单个机器或加速器(如显卡)无法存放整个模型时,如果不能有效地进行模型划分,则无法有效支持大规模模型。分布式深度学习方法,既解决了模型大于单机(卡)时的可行性问题,又可以通过并行计算加快训练速度,是解决大规模深度学习神经元网络的有效方法[5] 。

另一方面,计算机体系结构正处于快速发展中,现有的深度学习系统,使用了包括通用处理器、以GPU 为代表的加速器、分布式多机系统以及神经网络处理器等多种体系结构。要构造高性能的大规模深度学习系统,需要综合考虑处理硬件的处理能力、内存容量、通信能力、功耗以及软件的可编程性、灵活性和性能等因素。

本文将首先对深度学习算法的计算与访存特征进行简单分析,然后介绍如何用商用系统构建深度学习系统,最后介绍深度学习专用体系结构。

你可能感兴趣的:(《中国人工智能学会通讯》——2.17 面向深度学习的计算机系统结构)