大数据测试技术与实践之大数据技术生态总览

大数据的数据多样性和分析需求的多元化等,促使众多技术组件产生,还使得大数据的技术体系变得非常复杂,可以划分为数据采集,数据存储,管理调度(包括资源管理、服务协调和工作流调度)、计算分析和组件应用

1.数据采集:主要由关系型与非关系型数据采集组件,以及分布式消息队列等构成,如sqoop、Flume、Scnbe和Kafka等

2.数据存储:主要由分布式文件系统、关系型数据库和非关系型数据库等构成,如HDFS、MYSQL、HBase、Kudu、Redis和Neo4j等

3.管理调度:主要包含统一资源管理与调度系统YARN,容器集群管理系统Kkubernetes,服务协调系统ZooKeeper,以及工作流调度平台AZKaban等

4.计算分析:包含批处理、流计算、查询分析和图计算这4种计算方式,工作有批处理框架MapReduce、流计算框架Flink、查询分析引擎lmpala和图计算引擎Gelly等

5.组件应用:包含多种数据分析和机器学习工具,如Hive、Pig、Mahout和TensorFlow等

上述层之间存在依赖关系,如计算分析层依赖数据存储层、组件应用层依赖计算分析层,下文将对各层中的关键组件进行介绍。

你可能感兴趣的:(big,data,hadoop,kafka)