下载地址:http://www.chinastor.org/GuoJiXinWen/2949.html
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的核心部分的代码只有63个Scala文件,非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,它们使 Spark 在某些工作负载方面表现得更加优,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
2014年Spark Summit于6月30日至7月2日在美国旧金山举行。来自使用Spark的一线技术公司及专家汇聚一堂,共同探讨目前Spark在企业的落地情况及未来Spark的发展方向和遭遇的挑战,我们汇总一些精彩PPT分享给大家。
1. Databricks公司联合创始人兼现任CTO Matei Zaharia: Spark在大数据生态系统中的地位
Matei Zaharia是加州大学伯克利分校AMP实验室博士研究生,Databricks公司的联合创始人兼现任CTO。Zaharia致力于大规模数据密集型计算的系统和算法。研究项目包括:Spark、Shark、Multi-Resource Fairness、MapReduce Scheduling、SNAP Sequence Aligner,这次spark 峰会上他主要就 Spark的现状和未来做了详细的阐述。
2. 加州大学伯克利AMP实验室主任Mike Franklin:Berkeley数据分析的未来
Mike Franklin是加州大学伯克利AMP实验室主任, AMPLab是Berkeley Data Analytics Stack (BDAS)和Spark的发源地,作为BDAS的核心组件,获得了24家顶尖的IT公司的支持。在这次演讲中,我将分享伯克利未来BDAS的研究方向以及目前正在进行的一些研究项目,如机器学习、数据和模型服务。
3.DataStax工程执行副总裁 Martin Van Ryswyk:Spark 和 Cassandra
Apache Cassandra是领先的分布式数据库,能够满足世界上成千上万对可伸缩性和可用性最为苛刻的网站需求。这个演讲简要概述Cassandra,以及目前DataStax及DataStax合作伙伴的状态,另外还将分享两家使用Spark和Cassandra成功经验的例子。
4. Cloudera 联合创始人兼首席战略官Mike Olson:Apache Spark在企业数据分析的作用
Mike Olson是Cloudera 的联合创始人,并担任首席执行管直到2013年,然后开始了他的首席战略官生涯。主要负责Cloudera的产品策略、开源的领导以及与用户的对接。Mike还在Oracle公司担任过2年的嵌入式技术副总裁。此次峰会上他主要就Spark在企业中的作用以及Cloudera和Intel的合作做了相关解读。
5. SAP平台战略实施副总裁Aiaz Kazi: 交付大数据的企业级架构
Aiaz Kazi是SAP公司的平台战略实施副总裁,他负责平台技术、商业策略、平台采用、新平台计划。他的工作主要围绕SAP HANA、SAP HANA云平台、SAP HANA市场以及所有SAP产品的投资组合,包括内存技术、移动、分析、用户体验、集成和应用程序开发。
6. Hortonworks CTO Eric Baldeschwieler:Spark和大数据应用程序的未来
Eric Baldeschwieler是专业大数据顾问。他是Hortonworks的创始CEO和后来的首席技术官。他创立并领导雅虎团队,将Apache Hadoop从原型发展到企业级技术,从而是Hadoop才有了如今的广泛使用。曾经他是雅虎和Inktomi网络搜索工程团队的领袖级人物。此次的演讲他主要分析了为什么Spark是最好的选择以及它为什么会是当下应用程序更好的平台。
7. Conviva联合创始人 Ion Stoica:Apache Spark与 Databricks
Ion Stoica是UC Berkeley计算机教授,Conviva共同创始人,目前是Databricks的CEO。弹性P2P协议Chord、集群内存计算框架Spark、集群资源管理平台Mesos都出自他。这次在Spark峰会上的演讲主题是Databricks的发展以及Databricks云。
8. MapR 科技联合创始人兼CTO M.C. Srivas :Spark和Hadoop的集成
M.C. Srivas在Google搜索基础设施团队工作了2年,在2009年夏天他选择离开了Google,并创建了公司——MapR。MapR也采用了Google基础设施背后优秀的设计思想(Google GFS和MapReduce),并提供大数据处理的业务。他的演讲主要是关于MapR的数据平台架构和Hadoop和Spark如何集成并最终为终端用户提供最完美的体验。
9. Databricks创始人Patrick Wendell:Spark的未来
Databricks创始人Patrick Wendell:毕业于加州大学伯克利分校计算机科学系,专注于大规模数据密集型计算。致力于Spark的性能基准测试,同时是spark-perf的合着者。此次峰会他的演讲主题是“Spark的未来”
10. Cloudera公司数据科学家Sandy Ryza:Spark on YARN
Cloudera公司高级软件工程师及Hadoop提交者Sandy Ryza主要致力于云计算架构Hadoop(MapReduce和 YARN)的资源管理。还为大数据集和POC设计机器学习工具,同时建立Monte Carlo simulations 和 NLP pipelines。此次峰会上他的演讲主题是“Spark on YARN”
11. 雅虎实验室高级研究员Hirakendu Das:Spark MLLib上的分布式决策树
12. IBM硅谷实验室高级工程师Dimple Bhatia :IBM的在Apache Spark上的文本分析
参考网址:http://www.chinastor.org/GuoJiXinWen/2949.htmlhttp://tieba.baidu.com/p/3150596338