BigData大数据开发路线详细完整结构知识体系学习大全(2022)

BigData

  • 一、基础知识
    • (一)采集:
    • (二)存储:
    • (三)计算:
    • (四)查询:
    • (五)可视化:
    • (六)任务调度:
    • (七)集群监控:
    • (八)元数据管理:
    • (九)数据质量监控:
  • 二、开发平台
    • (一)Hadoop大数据处理框架
      • 1、MapReduce 磁盘离线分布式计算框架
      • 2、HDFS分布式文件系统
      • 3、HBase 实时数据存储管理系统
      • 4、Zookeeper集群分布式协调系统
      • 5、Hive离线数据仓库
      • 6、Yarn运行调度资源管理平台
      • 7、TeZ(DAG计算)
      • 8、Spark(内存计算)
      • 9、Pig:流数据处理
      • 10、Oozie:作业流调度系统
      • 11、Flume:日志相关收集
      • 12、Sqoop:完成数据导入导出
      • 13、Ambari(最上层):部署工具
    • (二)Spark通用内存并行计算框架
      • 1、Spark core
      • 2、Spark SQL
      • 3、Spark Streaming:流处理库
      • 4、graph-parallel(GraphX):图并行处理库
      • 5、ML(MLlib):机器学习库
      • 6、Shark SQL:并行式SQL查询库
      • 7、HDFS、Tachyon:分布式文件存储系统(大量数据的存储)
      • 8、Mesos,YARN:资源管理框架(调度计算任务)
  • 三、数据仓库
  • 四、数据分析
  • 五、机器学习

一、基础知识

海量、多样、高增速、高速

(一)采集:

Flume/Kafka/Sqoop

(二)存储:

Mysql/Hasoop/Hbase/HDFS/mongoBD/Kafka

(三)计算:

Hive/Tez/Spark/Flink/Storm/MapReduce/Presto

(四)查询:

Presto/Druid/Kylin/Impala

(五)可视化:

Superset/Echarts/QuickBI/DataV

(六)任务调度:

Azkaban

(七)集群监控:

Zabbix

(八)元数据管理:

Atlas

(九)数据质量监控:

Shell/Griffin/python

二、开发平台

(一)Hadoop大数据处理框架

特性:处理、存储、分析、分布式、非结构化数据、开源框架
	 低成本、高可靠、高扩展、高有效、高容错
语言:Java
意义:大数据分布式系统基础架构、数据管理系统、数据分析
	 大规模并行处理框架、生态圈

1、MapReduce 磁盘离线分布式计算框架

磁盘离线批处理
计算分析

2、HDFS分布式文件系统

3、HBase 实时数据存储管理系统

列族数据库、非关系型数据库

4、Zookeeper集群分布式协调系统

集群管理、分布式锁

5、Hive离线数据仓库

6、Yarn运行调度资源管理平台

7、TeZ(DAG计算)

计算分析

8、Spark(内存计算)

计算分析

9、Pig:流数据处理

提供类似sql语句查询
轻量级编程语言

10、Oozie:作业流调度系统

11、Flume:日志相关收集

美团

12、Sqoop:完成数据导入导出

数据库ELT工具
关系型数据库到HDFS、HBase、Hive互导

13、Ambari(最上层):部署工具

Hadoop快速部署工具

(二)Spark通用内存并行计算框架

特性:快速、易用、通用、随处
语言:Scala、函数式、面向对象
意义:大数据计算分析引擎
内存、可落地到磁盘

1、Spark core

2、Spark SQL

3、Spark Streaming:流处理库

4、graph-parallel(GraphX):图并行处理库

5、ML(MLlib):机器学习库

6、Shark SQL:并行式SQL查询库

7、HDFS、Tachyon:分布式文件存储系统(大量数据的存储)

8、Mesos,YARN:资源管理框架(调度计算任务)

三、数据仓库

四、数据分析

五、机器学习

你可能感兴趣的:(虚拟化,分布式,大数据,bigdata,hadoop,spark,linux)