百度深度学习加速基于FPGA而不是GPU集群

中国搜索引擎和网络服务公司百度(使用深度神经网络来提供语音识别、图像搜索,并服务于语境广告)决定生产环境服务器中使用FPGA而不是GPU。百度高级架构师Jian Ouyang表示,虽然个别的GPU提供峰值浮点性能,在百度使用的深度神经网络的应用中,相比相同的性能水平FPGA消耗更少的功率,并可以安装在刀片式服务器上,完全由连接在主板上的PCI Express总线供电。FPGA的一个主要优点是:因为一个计算得到的结果可以被直接馈送到下一个而无需在主存储器临时保存,存储器带宽需求比使用GPU或CPU实现时低得多。

“使用FPGA,我们不需要修改服务器设计和环境,所以很容易大规模部署。我们需要许多功能来支持那些无法在同一时间部署到FPGA中的。但是,我们可以使用他们的可重配置在FPGA中按需移入和移出功能。重构时间小于10μs。” Ouyang说。

百度团队通过使用一个简化的浮点引擎来进一步节省空间。“处理器提供的标准浮点实现可以处理所有可能的异常。但以我们的情况来看,我们并不需要处理所有IEEE[754]标准以外的情况。”

原文:深度学习成长的烦恼

你可能感兴趣的:(百度深度学习加速基于FPGA而不是GPU集群)