2014 Spark美国峰会顶级数据商精彩PPT分享

 Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的核心部分的代码只有63个Scala文件,非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,它们使 Spark 在某些工作负载方面表现得更加优,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
  2014年Spark Summit于6月30日至7月2日在美国旧金山举行。来自使用Spark的一线技术公司及专家汇聚一堂,共同探讨目前Spark在企业的落地情况及未来Spark的发展方向和遭遇的挑战,我们汇总一些精彩PPT分享给大家。

下载地址:http://www.chinastor.org/GuoJiXinWen/2949.html


Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的核心部分的代码只有63个Scala文件,非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,它们使 Spark 在某些工作负载方面表现得更加优,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

  2014年Spark Summit于6月30日至7月2日在美国旧金山举行。来自使用Spark的一线技术公司及专家汇聚一堂,共同探讨目前Spark在企业的落地情况及未来Spark的发展方向和遭遇的挑战,我们汇总一些精彩PPT分享给大家。

  1. Databricks公司联合创始人兼现任CTO Matei Zaharia: Spark在大数据生态系统中的地位

  Matei Zaharia是加州大学伯克利分校AMP实验室博士研究生,Databricks公司的联合创始人兼现任CTO。Zaharia致力于大规模数据密集型计算的系统和算法。研究项目包括:Spark、Shark、Multi-Resource Fairness、MapReduce Scheduling、SNAP Sequence Aligner,这次spark 峰会上他主要就 Spark的现状和未来做了详细的阐述。

  2. 加州大学伯克利AMP实验室主任Mike Franklin:Berkeley数据分析的未来

  Mike Franklin是加州大学伯克利AMP实验室主任, AMPLab是Berkeley Data Analytics Stack (BDAS)和Spark的发源地,作为BDAS的核心组件,获得了24家顶尖的IT公司的支持。在这次演讲中,我将分享伯克利未来BDAS的研究方向以及目前正在进行的一些研究项目,如机器学习、数据和模型服务。

  3.DataStax工程执行副总裁  Martin Van Ryswyk:Spark 和 Cassandra

  Apache Cassandra是领先的分布式数据库,能够满足世界上成千上万对可伸缩性和可用性最为苛刻的网站需求。这个演讲简要概述Cassandra,以及目前DataStax及DataStax合作伙伴的状态,另外还将分享两家使用Spark和Cassandra成功经验的例子。

  4. Cloudera 联合创始人兼首席战略官Mike Olson:Apache Spark在企业数据分析的作用

  Mike Olson是Cloudera 的联合创始人,并担任首席执行管直到2013年,然后开始了他的首席战略官生涯。主要负责Cloudera的产品策略、开源的领导以及与用户的对接。Mike还在Oracle公司担任过2年的嵌入式技术副总裁。此次峰会上他主要就Spark在企业中的作用以及Cloudera和Intel的合作做了相关解读。

  5. SAP平台战略实施副总裁Aiaz Kazi: 交付大数据的企业级架构

  Aiaz Kazi是SAP公司的平台战略实施副总裁,他负责平台技术、商业策略、平台采用、新平台计划。他的工作主要围绕SAP HANA、SAP HANA云平台、SAP HANA市场以及所有SAP产品的投资组合,包括内存技术、移动、分析、用户体验、集成和应用程序开发。

  6.  Hortonworks CTO Eric Baldeschwieler:Spark和大数据应用程序的未来

  Eric Baldeschwieler是专业大数据顾问。他是Hortonworks的创始CEO和后来的首席技术官。他创立并领导雅虎团队,将Apache Hadoop从原型发展到企业级技术,从而是Hadoop才有了如今的广泛使用。曾经他是雅虎和Inktomi网络搜索工程团队的领袖级人物。此次的演讲他主要分析了为什么Spark是最好的选择以及它为什么会是当下应用程序更好的平台。

  7. Conviva联合创始人 Ion Stoica:Apache Spark与 Databricks

  Ion Stoica是UC Berkeley计算机教授,Conviva共同创始人,目前是Databricks的CEO。弹性P2P协议Chord、集群内存计算框架Spark、集群资源管理平台Mesos都出自他。这次在Spark峰会上的演讲主题是Databricks的发展以及Databricks云。

  8.  MapR 科技联合创始人兼CTO M.C. Srivas :Spark和Hadoop的集成

  M.C. Srivas在Google搜索基础设施团队工作了2年,在2009年夏天他选择离开了Google,并创建了公司——MapR。MapR也采用了Google基础设施背后优秀的设计思想(Google GFS和MapReduce),并提供大数据处理的业务。他的演讲主要是关于MapR的数据平台架构和Hadoop和Spark如何集成并最终为终端用户提供最完美的体验。

  9. Databricks创始人Patrick Wendell:Spark的未来

  Databricks创始人Patrick Wendell:毕业于加州大学伯克利分校计算机科学系,专注于大规模数据密集型计算。致力于Spark的性能基准测试,同时是spark-perf的合着者。此次峰会他的演讲主题是“Spark的未来”

  10. Cloudera公司数据科学家Sandy Ryza:Spark on YARN

  Cloudera公司高级软件工程师及Hadoop提交者Sandy Ryza主要致力于云计算架构Hadoop(MapReduce和 YARN)的资源管理。还为大数据集和POC设计机器学习工具,同时建立Monte Carlo simulations 和 NLP pipelines。此次峰会上他的演讲主题是“Spark on YARN”

  11. 雅虎实验室高级研究员Hirakendu Das:Spark MLLib上的分布式决策树

  12. IBM硅谷实验室高级工程师Dimple Bhatia :IBM的在Apache Spark上的文本分析

参考网址:http://www.chinastor.org/GuoJiXinWen/2949.html

http://tieba.baidu.com/p/3150596338

你可能感兴趣的:(spark,2014,数据科学家,Summit)