【基础篇】大数据学习笔记(3)大数据的各种"轮子"

提到大数据必然会提到Hadoop,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。而Hadoop最核心的设计就是:HDFS(存储)和MapReduce(计算)。 下面是大数据的各种框架工具分类:

大数据存储框架:帮用户将海量数据分布式存储在机器上

HDFS       ——分布式文件存储系统(HADOOP中的存储框架)

HBASE     ——分布式数据库系统

KAFKA      ——分布式消息缓存系统(实时流式数据处理场景中应用广泛)

大数据运算框架:帮用户将处理逻辑在很多机器上并行

MAPREDUCE——离线批处理/HADOOP中的运算框架

SPARK —— 离线批处理/实时流式计算

STORM ——实时流式计算

辅助类的工具:解放大数据工程师的一些繁琐工作

HIVE        ——数据仓库工具:可以接收sql,翻译成mapreduce或者spark程序运行

FLUME     ——数据采集

SQOOP    ——数据迁移

ELASTIC SEARCH ——分布式的搜索引擎

......

你可能感兴趣的:(【基础篇】大数据学习笔记(3)大数据的各种"轮子")