深度学习FPGA实现基础知识4(Mariana——腾讯深度学习平台的进展与应用)

需求说明:深度学习FPGA实现知识储备

来自:http://www.36dsj.com/archives/20222


21页PPT重磅发布:Mariana——腾讯深度学习平台的进展与应用

图文版请看这:

深度学习系列:深度学习在腾讯的平台化和应用实践(一)

深度学习系列:Mariana DNN多GPU数据并行框架 微信语音是怎么来的?(二)

深度学习系列:Mariana CNN并行框架与图像识别(三)

深度学习系列:解密最接近人脑的智能学习机器——深度学习及并行化实现(四)

邹永强,腾讯数据平台部精准推荐中心深度学习方向负责人

邹永强目前负责腾讯深度学习平台Mariana设计,开发与应用。已经成功支持微信语音识别,微信图像识别,正在开展广点通图文广告点击率预估提升工作。有丰富的自研分布式文件系统开发和数千台服务器运营经验,具备领导设计和开发大数据并行处理解决方案经验。拥有11项专利,涉及并行机器学习平台、分布式文件系统和分布式数据库。曾获PDCAT2008最佳论文奖和NPC2010最佳论文奖提名,近期研究工作发表于国际顶级学术会议 VLDB2014。邹永强2010年于中科院计算所获分布式系统方向博士学位。

记者:您所在的公司,都曾使用过哪些大数据技术?您对这些技术满意的地方和不满意的地方分别有什么?

邹永强:腾讯公司有多个部门在广泛使用多种大数据技术。以数据平台部为例,有TDW作为分布式数据仓库提供增强的Hive功能;有Gaia提供分布式资源管理;有HBase作为分布式数据库;有全内存的分布式key-value系统TDE;利用Storm完成流式计算;利用Spark完成机器学习任务;利用分布式消息系统完成可靠的消息分发;有Mariana提供深度学习的CPU集群框架和GPU并行框架。

上述技术令人满意的地方在于生态系统造就了技术的快速发展,对支撑业务系统发展起到了重要作用,这些包括了开源社区和公司内同事的共同努力。腾讯也将TDW开源了,以将腾讯对Hive系的改进回馈社区。

上述每项技术都有或多或少的问题,因为涉及的技术比较多,每个技术的问题不尽相同,我在此不一一列举。共性的问题是在支撑腾讯的数据规模时,已有系统难以提供足够的性能、可靠性和易用性支持,往往需要对系统进行深度定制和优化。

记者:根据您的了解,目前类似的企业中,在数据方面,遇到的最大困难是什么?

邹永强:目前数据方面的困难已不再是海量数据的存储和离线分析,而是数据的实时化处理,以及通过机器学习和深度学习提取出有业务价值的信息,从数据产生智能。

以深度学习为例,对软件、硬件、开发者都有一些新困难:

  • 软件方面,急需深度学习方面的公共支撑的软件框架,以及算法库,帮助完成快速的模型训练和应用开发;
  • 硬件方面,深度学习往往是计算密集型,需要高计算密度的硬件设备,包括GPU、FPGA,以及其他的新型硬件;此外,由于深度学习做大规模并行计算的需求,导致对高性能网络的需求与日俱增;
  • 开发者方面,首先需要深刻理解深度学习的高性能计算系统和Hadoop等大数据处理系统的差异,前者计算密集,后者数据密集,由此带来的一系列硬件选择、软件系统设计、编程方式等显著差异。其次,深度学习的系统开发需要算法研究和系统研究的有机结合,需要算法和系统共同设计,共同改进,两者缺一不可。

记者:在大数据领域,目前还有哪些技术是您正在观察和研究的,为什么您看好这些技术?

邹永强:从腾讯的数据平台部的情况看,目前关注的大数据技术集中在下述方面:

  • 数据存储和处理,包括了Hadoop、Hive、HBase,以及腾讯的Gaia等;
  • 实时计算,包括了Storm、Spark、Kafka,以及腾讯的分布式消息系统等;
  • 深度学习和机器学习,包括DistBelief、Adam、GraphLab,以及腾讯的Mariana等。

此外,对领域的诸多技术我们也在持续而广泛的关注。我个人看好技术的理由通常是有明确而重要的要解决的问题,有漂亮的设计与实现,有活跃的社区等。

Mariana针对腾讯多种应用,打造了三套框架:

1)Mariana DNN:深度神经网络的多GPU数据并行框架 ;

2)Mariana CNN:深度卷积神经网络的多GPU并行框架 ;

3)Mariana Cluster:深度神经网络的CPU集群框架。

Mariana基于GPU集群进一步提升模型规模和训练性能。Mariana在微信语音识别、微信图像识别均已成功落地应用,在图文类效果广告点击率提升方面也取得初步应用。

下面是详细的PPT:

整理来自:时间的诗

你可能感兴趣的:(深度学习FPGA实现基础知识)