spark mapreduce

spark:
1.需要重复读取同样数据进行迭代计算
2.流式实时
3.内存大,快 内存换存储
4.scala,java
5.交互模式
6.可独立运行,不依托 yarn,hdfs(不是必须)
mapreduce
1.单次读取,类似ETL(抽取转换加载),跑批
2.JAVA
3.没有交互模式
4.磁盘io 存储换内存
5.基于hadoop生态圈,需要任务调度yarn mesos,高可用存储 hdfs alluxio等。

你可能感兴趣的:(spark mapreduce)