Spark火遍IT业界,AMPCamp来中国趁火打劫

  Spark的魅力

     Apache Spark脱胎于加州伯克利大学AMPLab实验室团队。自诞生伊始,Spark就与MapReduce进行比较,MapReduceHadoop最初的数据处理引擎,因对大数据集的分布式处理能力而广受关注,但在效率方面饱受诟病。MapReduce以批处理方式进行计算,无法很好地应对流处理模式(比如物联网项目)。而且,MapReduce没有内存计算的选项,每次计算后都要将结果写入外部存储,这使得迭代式的任务相当耗时。

    因此,Apache Spark近些年发展迅猛,在全球23个国家50个城市拥有66个小组,会员人数超过21000。作为Spark的创建方,AMPLab开发了基于内存计算的SparkTachyonGraphXSparkR等大数据处理框架和技术,凭借超强的数据处理速度、对复杂数据的实时分析能力及高易用性,受到业界追捧。

     在中国,大数据方兴未艾。Wikibon的调研数据显示,大数据正逐渐成为全球IT支出的全新增长点。中国也得益于人口和行业的规模,以及正在迅速拓展的数字经济,正在成为大数据技术应用的高地。

    大数据金牌训练营AMPCamp移师中国

    为了帮助研发和应用大数据技术的中国开发者与企业技术人员深入了解这些开源大数据技术的精髓与应用优势,让他们能够更好地参与到相关技术创新与实践的进程中来,在美国连续举办了五届的大数据金牌训练营AMPCamp移师中国。


    在上海举办的首届AMPCamp@China 训练营的成功离不开英特尔的支持。实际上,英特尔除了拥有业界无可匹敌的硬件,在软件领域的表现也可圈可点。2012年,英特尔就和美国加州伯克利大学进行了很紧密的合作,围绕Apache Spark软件开展了技术开发、代码优化、应用拓展等多个维度的紧密合作,并且在Spark社区贡献代码量排名全球第三。

    英特尔大数据首席架构师戴金权表示,英特尔大数据团队主要投入到大数据开源社区的核心项目上。从SparkHadoopHbaseHive等,全球有22位员工专职开源社区工作。

戴金权补充,英特尔一直致力于帮助合作伙伴和用户在开放架构的大数据平台上开发多样化、差异化的应用。向各个行业的用户提供大数据实践层面的技术支持,积极参与到大数据领域的人才培养事业中。

     他说:“我们英特尔将进一步拓展和深化与开源社区、产业界、学术界的合作,所有基于开放架构的主流大数据软件技术,特别是开源技术,都是我们提供平台优化和技术支持的目标。”

     第一个基于Spark的分布式矩阵运算库是如何炼成的?

     2014年,南大大学PASA大数据实验室成功申请获得由英特尔中国研究院和CSDN联合发布的基于Spark的分布式矩阵运算库研究项目,研究实现了全球第一个基于Spark的分布式矩阵运算库,项目成果已经开源到社区。

    作为国内最早开展大数据技术研究和教学的课题组之一,南京大学PASA大数据实验室近六年来在大数据技术领域开展了一系列系统深入的研究开发工作,积累了系统的研究和技术基础。

     2010年开始与英特尔合作,覆盖Hadoop性能优化、基于Xeon Phi众核处理器的并行化算法研究、大规模中文文本语义分析与应用技术与分布式文件系统性能评测工具等领域。

    南京大学计算机科学与技术系教授黄宜华表示告诉TechTarget中国:“我们的重点是围绕大数据处理技术与系统工具平台。主要覆盖分布式存储、并行化计算与算法三大层面。”在系统层的并行变成模型与计算框架层,HadoopSpark可以进行批处理、流式、迭代、内存与定制式等计算。

    他表示,基于在硬件和体系结构层面的技术优势,英特尔在大数据系统的性能优化方面具有独特的技术优势。与此同时,南大与英特尔携手大数据技术教学与人才培养,进一步推动大数据技术及其应用的发展。

    Spark还能如何提升?

    如今,众多IT界大佬都将Spark加入到了自己的Hadoop发行版里,期望其能成为通用的大数据技术。但也有专家认为Spark还有需要完善的地方,例如内存计算稳定性问题。

华东师范大学计算机与技术系教授周傲英表示,该校2013年成立的大数据研究院,内存数据库的研发一直是工作重点。“这不仅仅指实时分析,还包括移植。”除此之外,知识图谱与位置服务也是目前的重点。未来的重心在于研发应用驱动,走开源路线的系统,以及培养系统架构师与数据科学家。

戴金权表示,英特尔利用开放架构的潜能,使大数据技术能够真正转化成为各行各业解析数据价值。也期望用户对大数据技术的更多采纳和应用能够反过来驱动大数据技术创新生态系统的加速发展。

你可能感兴趣的:(Spark火遍IT业界,AMPCamp来中国趁火打劫)