大数据 Hive spark Flink 关系

大数据分为离线和实时数据
Hive仅是离线数据
sparkStreaming 和 Flink 是实时数据工具
spark衍生出各种工具,其核心是mr的优化

Hive(核心功能:SQL=>Spark、对象(databases,table,column/type)) 
SQL => MapReduce/spark
HDFS
MySQL
(MR 和 Spark比较)
 MR 有优势 =>稳定
 spark =>内存计算()
 Hadoop(HDFS	 Yarn	 MapReduce)=>80行wrodcount
 							Spark =>2行
 Spark 是 MR 的优化(改进) 
 spark core  => 离线
 sparkSQL	=> 解决不了100%的问题;离线、交互
 sparkStreaming	=> Flink 实时
 MLlib => 机器学习
 Graphx => 图计算

你可能感兴趣的:(大数据,flink,spark,hive,大数据)