大数据开发14大学习阶段

Java SE核心知识

第一阶段

  • Java编程概述及基础语法
    Java技术体系平台
    Java核心机制与JVM运行原理
    Java开发环境搭建
    Java变量、数据类型、数组及运算符
    Java流程控制结构
    面向对象编程
    高级类特性
    Java API、异常机制、反射及IO流
    Lambda表达式
    函数式接口

  • Java集合与泛型
    集合框架概述
    Collection系列集合
    List系列集合与Set系列集合
    Iterator与ListIterator
    Collections工具类
    集合中使用泛型
    自定义泛型

  • Java多线程技术
    线程的原理
    线程的创建与启动
    创建线程的几种方式的对比
    继承Thread类与实现Runnable接口
    创建线程方式对比
    线程的控制
    线程的调度
    线程的优先级
    线程的生命周期
    多线程的安全问题与解决办法
    线程的同步
    互斥锁
    线程的死锁问题
    线程通信
    生产者与消费者案例

  • Java网络编程
    网络编程基础知识
    网络编程的主要问题
    如何实现网络中主机的相互通讯
    网络通讯要素
    网络通信协议
    OSI参考模型
    TCP/IP参考模型(或TCP/IP协议)
    数据的封装与拆封
    Java.net.InetAddress类
    TCP协议与UDP协议
    基于TCP协议的网络编程
    Socket的TCP编程
    基于UDP协议的网络编程
    URL编程
    针对HTTP协议的URLConnection

Java Web数据可视化

第二阶段

  • Java Web后端技术
    Tomcat&Nginx服务器中间件
    Servlet规范组件
    Ajax&Json轻量级数据交互
    Maven项目构建工具
    Git项目协作工具
    Spring框架
    SpringMVC表现层框架
    Mybatis持久层框架
    SpringBoot框架
    分布式架构理论

  • 前端可视化技术
    XML可扩展标记语言
    HTML、CSS、JavaScript静态化技术
    Jquery框架
    渐进式javaScript框架Vue
    ECharts可视化组件
    FusionCharts可视化组件
    Highcharts图标库

  • 关系型数据库MySQL高级应用
    MySQL基础
    MySQL数据库对象
    SQL结构化查询语言
    JDBC操作
    数据库连接池MySQL事物
    MySQL查询和慢查询日志分析
    MySQL调优之索引优化
    MySQL调优之存储引擎优化
    MySQL调优之锁机制优化
    MySQL高可用

  • Linux服务器应用实战
    Linux系统基础
    Linux网络基础
    Linux安全策略
    Shell编程基础及应用
    Linux运维技巧

  • 拉勾网招聘行业报表数据可视化项目实战

Hadoop核心及生态圈技术栈

第三阶段

  • Hadoop核心之分布式文件系统HDFS
    大数据概述
    Hadoop概述
    Apache Hadoop完全分布式集群部署
    HDFS简介及应用场景
    HDFS原理详解
    HDFS Shell操作
    HDFS Java API操作
    HDFS原理深入及生产级调优
    源码剖析

  • Hadoop核心之分布式计算框架MapReduce
    MapReduce设计目标及核心思想
    MapReduce主要功能
    MapReduce处理流程
    MapReduce入门案例
    Mapper抽象类与Reducer抽象类
    MapReduce内置数据类型及自定义数据类型
    如何确定Map和Reduce个数
    MapReduce Shuffle过程之Combine合并机制
    MapReduce Shuffle过程之Partition分区机制、自定义分区
    MapReduce Shuffle之序列化
    MapReduce Shuffle过程之自定义排序及二次排序
    MapReduce Shuffle过程之数据压缩机制
    自定义InputFormat及OutputFormat
    MapReduce生产级调优
    MapReduce案例实战

  • Hadoop核心之分布式资源调度框架Yarn
    分布式资源调度及Yarn简介
    Yarn架构及原理
    Yarn核心组件之ResourceManager资源管理器
    Yarn核心组件之NodeManager节点管理器
    Yarn核心组件之Application Master任务专员
    Yarn核心组件之Container容器
    Yarn资源调度FIFO策略和应用
    Yarn资源调度Fair策略和应用
    Yarn资源调度Capacity策略和应用
    Yarn多租户资源调度配置
    Yarn生产级调优

  • Hadoop生态圈技术栈(上)
    数据仓库工具Hive
    ETL转换抽取工具Sqoop
    ELT转换抽取工具CDC
    ELT转换抽取工具DataX
    数据采集工具Flume
    分布式协调服务组件ZooKeeper

  • Hadoop生态圈技术栈(下)
    海量列式非关系型数据库HBase
    SQL语义级查询系统Impala
    任务调度组件Azkaban
    任务调度组件airflow

分布式缓存Redis及Kafka消息中间件

第四阶段

  • 高性能分布式缓存Redis
    缓存原理及设计
    数据类型与过期策略
    扩展功能
    事件处理机制
    存储
    高可用方案
    Redis实战案例及企业级场景开发

  • 高吞吐消息中间件Kafka
    Kafka简介
    生产者
    消费者
    主题
    分区
    物理存储
    稳定性
    高级应用
    集群管理
    监控
    kafka源码剖析
    kafka调优策略
    kafka幂等性等问题解析
    Flume整合kafka应用

PB级企业电商离线数仓项目

第五阶段

  • 数仓分层建设及理论梳理
  • 数仓建设痛点剖析
  • 数据血缘管理机制
  • 质量监控策略
  • 离线数仓全流程性能优化方案
  • 电商行业离线数仓业务真实级源码构建与剖析

PB级企业电商离线数仓项目

第六阶段

  • Scala编程
    Scala基础
    Scala控制结构和函数
    Scala数组相关操作
    Scala映射和元组
    Scala继承、特质、高阶函数
    Scala集合
    Scala模式匹配和样例类
    Scala偏函数
    Scala Future及类型参数
    Scala高级类型
    Scala隐式转换和隐式参数
  • Spark实战应用
    Spark Core核心
    Spark SQL结构化处理
    Spark流处理
    Spark GraphX图挖掘
    Spark MLib机器学习
    Spark整合Flume、kafka
    Spark核心源码剖析
    Spark调优
    Spark综合案例实战

智慧物流项目实战

第七阶段

  • 数据采集
    Flume/Canal
  • 仓库缺货销量预测
    LigthGBM模型算法
  • 运输车辆调度
    动态规划算法
  • 车辆位置/指标实时监控
    实时指标Redis存储
    Structured Streaming

实时计算领域最锋利的武器Flink

第八阶段

  • Flink基础
    Flink的应用场景和架构模型
    Flink入门程序WordCount和SQL实现
    Flink的编程模型与其他框架比较
    Flink常用的DataSet和DataStream API
    Flink SQL&Table编程和案例
    Flink集群安装部署和HA配置

  • Flink进阶
    Flink常见核心概念分析
    Flink窗口、时间和水印
    Flink状态和容错
    Flink Side OutPut分流
    Flink CEP复杂事件处理
    Flink常用的Source和Connector

  • Flink高级实践及调优
    Flink高可用配置
    Flink Exactly-once实现原理解析
    Flink反压问题排查
    Flink数据倾斜问题处理
    Flink并行度和资源设置
    Flink生产环境作业监控
    Flink维表关联方案
    Flink海量数据高效去重
    Flink和kafka的整合
    Flink中watemark的定义和使用
    Flink中的聚合函数和累加器的设计和使用
    自定义消息事件及Pattern

  • Flink核心源码剖析

  • Flink综合实战案例

实时计算领域最锋利的武器Flink

第九阶段

  • OLAP列式数据库管理系统ClickHouse
    ClickHouse简介及应用场景
    ClickHouse架构及原理
    ClickHouse数据类型
    ClickHouse列设计
    ClickHouse实战案例

  • 新型列式存储分布式数据库Kudu
    Kudu简介及应用场景
    Kudu的高层设计
    Kudu中的角色
    Kudu中的概念与机制
    Kudu安装部署
    Kudu管理
    Kudu操作接口
    Kudu性能调优
    Kudu实战案例

  • 开源的分布式分析引擎Kylin
    Kylin的工作原理
    Kylin的技术架构
    Kylin的主要特点
    Kylin快速入门
    Cube优化
    增量构建
    查询和可视化
    Cube Planner及仪表盘
    流式构建
    Kylin实战案例

  • 实时统计分析开源数据存储Druid
    Druid原理及部署
    Druid数据摄入
    Druid实时处理高级应用
    Druid实战案例

Elastic Stack日志搜索、挖掘及可视化解决方案

第十阶段

  • Elasticsearch全文搜索引擎
    认识全文搜索引擎
    倒排索引机制
    全文搜索引擎Elasticsearch介绍
    Elasticsearch Single-Node Mode快速部署
    Elasticsearch之入门使用
    Elasticsearch之高级应用
    Elasticsearch之企业级高可用分布式集群
    Elasticsearch之数据模型构建
    Elasticsearch之拉勾网亿级数据量搜索实战
    Elasticsearch之深度应用及原理剖析
    Elasticsearch7.x分布式集群调优策略

  • Logstash采集、Kibana展示方案
    Input插件应用及原理
    自定义Input插件
    Filter插件
    自定义Filter过滤插件
    Output插件应用及原理
    自定义Output插件
    Kibana可视化组件

电商项目实时数仓项目

第十一阶段

  • Flink流式处理技术构建复杂的电商订单指标
  • ClickHouse快速电商业务查询
  • 数据完整处理链条展现
  • Grafana实时中控大屏展示结果

Hadoop/Spark大数据处理算法及案例

第十二阶段

  • 大数据处理算法及案例(上)
    K-均值算法
    KNN算法
    决策树及随机森林
    朴素贝叶斯
    马尔可夫链
    推荐算法
    成对文档相似性
    算法案例实战应用
  • 大数据处理算法及案例(下)
    线性回归
    Cox回归
    皮尔逊(Person)相关分析
    社交网络分析之推荐系统
    社交网络分析之三角形计数
    社交网络分析之情感分析
    算法案例实战应用

Hadoop/Spark大数据处理算法及案例

第十三阶段

  • Python编程
    交互式解释器
    Python基础语法
    Python面向对象
    Python数据结构
    Python高级
    Anaconda工具使用

  • Python集成TensorFlow应用

  • Python集成SparkMlid

人才用户画像匹配系统

第十四阶段

  • 用户建模确定特征维度
  • 标签分类及标签库设计
  • ETL计算
  • 特征处理
  • 推荐算法模型处理,人才和企业精准对接

你可能感兴趣的:(java,大数据)