大数据学习路线(全学会可以拿到年薪36W)

科学记忆:

大数据学习路线(全学会可以拿到年薪36W)_第1张图片

学习路线:

科目 说明
JUC Java 5.0 提供的 java.util.concurrent线程池、异步 IO 和轻量级任务框架。提供可调的、灵活的线程池
JVM 深入理解JVM虚拟机,堆,栈,类加载器,调优
Docker核心技术 在Docker容器下进行日常软件的安装开发和工程部署,最终可以通过docker和阿里云平台完成工作的协同和发布。
Linux系统 Linux老手更全面、系统的学习到更多技术细节
Shell管理大数据集群 Shell解析器、变量、运算符、条件判断、流程控制、函数、cut、sed、awk、sort
Hadoop解决海量数据的存储和分析计算问题 Hadoop完全分布式集群搭建、Hadoop源码编译、HDFS的Shell操作、HDFS的API操作、HDFS的IO流操作、HDFS读写数据流程、NameNode和SecondaryNameNode工作机制、DataNode工作机制、集群节点动态服役和退役、HDFS2.x新特性、MapReduce编程规范、自定义序列化、自定义InputFormat、自定义OutputFormat、分区、排序、合并、分组、ReduceJoin、MapJoin、数据清洗、计数器、TopN案例、倒排索引案例、MapTask工作机制、ReduceTask工作机制、Shuffle工作机制、MapReduce工作流程、Job提交流程源码、MapReduce源码、数据压缩、Yarn工作机制、作业提交流程、YARN资源调度器、MapReduce企业优化、HDFS小文件企业优化、数据倾斜优化
Zookeeper 统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡。Zookeeper的集群安装、选举机制、监听器原理、写数据流程、Shell命令行操作、客户端API操作、服务器节点动态上下线
HadoopHA高可用 Hadoop存在的单点故障问题,解决单点故障的方案,搭建手动故障转移的HDFS-HA集群,搭建基于Zookeeper的自动故障转移的HDFS-HA集群以及自动故障转移的Yarn-HA集群
Sqoop数据传输工具 Sqoop的原理、安装配置、使用Oozie实现数据在Mysql与HDFS(Hive、HBase)等框架之间的互导
Oozie任务调度工具 Oozie的原理、安装配置、使用Oozie实现调度Shell脚本、逻辑调度多个Shell脚本、直接调度MapReduce任务以及定时逻辑调度多个任务
Scala Scala语言概述、运算符、程序流程控制、数据结构之集合、Map映射、过滤、化简、折叠、扫描、拉链、视图、并行集合、高阶函数、函数柯里化、偏函数、参数推断、控制抽象、Trait、面向对象编程、异常处理、惰性函数、Akka及Actor模型、Spark Master和Worker通讯、隐式转换、隐式参数、工厂模式、单例模式、观察者模式、装饰者模式、代理模式、泛型、上下界、视图界定、上下文界定、协变逆变不变和源码剖析
大数据推荐系统项目实战 项目架构搭建,数据生产,数据消费,数据分析,以及数据展示等项目核心业务功能的实现。使用Flume,Kafka,HBase,Hadoop,Echarts,Crontab等大数据框架完成整个业务的实现
电商数仓 Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置
Hive数据仓库工具 Hive架构原理、安装配置、hiveserver2、数据类型、数据定义、数据操作、查询、自定义UDF函数、窗口函数、压缩和存储、企业级调优
HBase数据库 HBase详细的架构原理及特点、HBase内部各个角色的详细介绍、安装配置、HBase的Shell操作、新旧版本的读写数据详细流程、HBase的API操作、使用MapReduce以及Hive对HBase数据分析、Rowkey设计、预分区设计、调优策略
Flume海量日志采集 Flume架构原理、安装配置、拓扑结构、使用Flume搭建监控端口采集数据、监控本地(或HDFS)文件(或文件夹)采集数据、多数据源采集数据、多数据出口收集日志、Flume负载均衡以及对于Flume的监控Ganglia的运用。
Azkaban定时调度工具 Azkaban的安装部署,Azkaban基础架构,Azkaban定时调度工作流程(包含Shell、MapReduce、Hive等)、Azkaban邮箱通知
Kafka分布式发布订阅消息系统 Kafka架构原理、安装配置使用、详细的Kafka写入数据和处理数据以及写出数据的流程、新旧版本对比及运用、分区副本机制的详解、内部存储策略、高阶API直接消费数据、低阶API自行管理Offset消费数据、Kafka拦截器以及KafkaStream流式处理。Kafka幂等性、Kafka事务、监控器Eagle的使用、Kafka对接Flume的使用
Flink实时分析 Flink基础理论,各种重要概念、原理和API的用法,以Flink作为分析框架,介绍一个电商用户行为分析项目的开发实战
基于阿里云搭建数据仓库(离线) 版本框架:Flume、DateHub、DataWorks、MaxCompute、MySql以及QuickBI等;
Flume:大数据领域被广泛运用的日志采集框架
DateHub:类似于传统大数据解决方案中Kafka的角色,提供了一个数据队列功能。对于离线计算,DataHub除了供了一个缓冲的队列作用。同时由于DataHub提供了各种与其他阿里云上下游产品的对接功能,所以DataHub又扮演了一个数据的分发枢纽工作;
MaxCompute:是阿巴巴主研发的海量数据处理平台,主要提供数据上传和下载通道,提供SQL及MapReduce等多种计算分析服务,同时还提供完善的安全解决方案;
DataWorks:是基于MaxCompute计算引擎,从工作室、车间到工具集都齐备的一站式大数据工厂,它能帮助你快速完成数据集成、开发、治理、服务、质量、安全等全套数据研发工作;
QuickBI & DataV:专为云上用户量身打造的新一代智能BI服务平台
基于阿里云搭建数据仓库(实时) 从框架版本选型、系统架构设计、业务流程设计,从零开始完成基于阿里云的实时数仓项目。版本框架:RDS、DataHub、DTS、实时计算、DataWorks、DataV等

你可能感兴趣的:(大数据学习路线)