Spark - 大数据Big Data处理框架 (2014-01-26 20:38:54)转载▼
标签: 大数据行业信息 it
Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。
Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。
Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HBASE 顺序文件等。
传统Hadoop性能慢原因有:磁盘IO 复制和序列化等等
而在Spark中,使用内存替代了使用HDFS存储中间结果
Spark的编程模型
弹性的分布数据集(RDD) :分布式对象集合能够跨集群在内存中保存。多个并行操作,失败自动恢复。
使用内存集群计算, 内存访问要比磁盘快得多。有Scala Java Python API,能够从Scala和Python访问
Spark流处理
以推流方式处理数据
Shark
Shark是基于Spark上的“Hive”,看看基于hadoop的Hive:
Hive是记录每行记录一个对象,而shark是每列记录: