001_spark的前世今生

spark是什么

spark是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce,Hive引擎,以及storm流式实时计算引擎等。
spark包含了大数据领域常见的各种计算框架:比如spark core用于离线计算,spark sql 用于交互式查询,spark streaming用于实时流式计算,spark MLlib用于机器学习,spark GraphX用于图计算。
spark 主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS,hive,hbase等),以及资源调度(Yarn)。
spark+Hadoop的组合,是未来大数据领域最热门的组合,也是最有前景的组合!


001_spark的前世今生_第1张图片
大数据体系概览(saprk的地位).png

spark的介绍

spark是一种“one stack to rule the all”的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务,Apache官方,对spark的定义就是:通用的大数据快速处理引擎。
spark使用spark RDD,spark sql,spark streaming,MLlib,GrahpX成功解决了大数据领域中,离线批处理,交互式查询,实时流计算,机器学习和图计算等最重要的任务和问题。
spark除了一站式的特点之外,另一个重要的特点,就是基于内存进行计算,从而让它的速度可以达到MapReduce,hive的数倍,甚至数十倍!
现在已经有很多大公司正在生产环境下深度的使用spark作为大数据的计算框架,包括ebay,yahoo,bat,网易,京东,华为,大众点评,优酷土豆,搜索等等。
spark同时也获得了多个世界顶级IT厂商的支持,包括IBM,intel等。

001_spark的前世今生_第2张图片
spark vs MapReduce的计算模型(内存).png

spark sql 和 hive的关系

001_spark的前世今生_第3张图片
image.png

spark vs hive

001_spark的前世今生_第4张图片
image.png

spark streaming和storm的计算模型对比

001_spark的前世今生_第5张图片
image.png

001_spark的前世今生_第6张图片
image.png

spark的个人使用体会

001_spark的前世今生_第7张图片
image.png

spark在国内的现状以及未来的期望

001_spark的前世今生_第8张图片
image.png

你可能感兴趣的:(001_spark的前世今生)