大数据各组件简述

hadoop分布式生态环境:
hdfs分布式文件系统
hive数据仓库工具,形成文件与表的映射,可以使用类sql语言操作数据库
mapreduce分布式计算框架
spark分布式计算框架,减少落盘,作为一个应用在yarn上运行
flume日志采集系统
kafka消息队列,缓冲
zookeeper服务管理-服务器资源和客户端请求的协调
impala基于内存的即席查询工具
kylin多维分析引擎
hbase-非关系型数据库 key-value
solr全文搜索引擎
tez下一代查询处理框架,基于yarn
hive on tez 使用tez作为sql查询计算引擎
kudu 快速变化数据实时分析的数据存储工具
phoentix 关系型数据库,支持oltp,基于hbase
ranger数据安全 管理,监控
sqoop关系型数据库与hdfs,云对象如amazon s3 or adls的数据传输
workload xm 性能管理 作业运行管理
maxwell 轻量级数据抓取工具 满足实时抓取数据的需求(sqoop是离线)

你可能感兴趣的:(big,data)