零基础大数据新手学习路线教程

大数据~数据挖掘,越来越火,90%的企业都在运用或者都想要利用大数据为其带来更便利的服务,从而大数据高端软件类人才可谓供不应求。

如何学好大数据?

第一阶段:大数据新手入门系统教程Java+MySQL+关系型数据库+阿里巴巴《码出高效》编码规约

知识点

一.Java基础入门:Java编程入门:Java编程初体验,Java运行机制;

Java语法基础:Java程序的组织形式与命名规则,变量类型和定义,表达式和运算符;

程序的流程结构:分支结构,循环结构;函授:函数的定义,函数调用,函数递归定义和调用;

数组:数组基本常识,数组的操作,二维数组的基本定义和使用;

Java类和对象:类和对象的概念,类的定义和对象的创建;面向对象的特征:封装的概念和实现,继承,多态;

三个修饰符:final修饰符及作用,static修饰符,abstract修饰符;接口:接口的定义,接口的实现;

设计模式与面向对象设计原则:面向对象的设计原则,设计模式及分类,常见的设计模式实现;

Object类和包装类:Object类,包装类及其使用;字符串的处理:字符串类String,字符串拼接;

Java中常用的工具类:日期类,Math类的使用,Random类的使用,Java MD5和加解密;

java的内部类:成员内部类,静态内部类,局部内部类的定义和使用,匿名内部类;

集合:Collection接口,List接口,Set接口,Map接口,其他集合接口和类;java泛型:泛型的介绍和产生的原因;

java异常:异常的概念和异常类的层次结构,异常处理的分类,异常处理方式,自定义异常;

java文件与I/O流(上):File类,字节流,输入输出字符流;(下):RandomAccessFile类,Java对象读写;

java多线程上:线程和线程类,线程的创建,线程的状态和调度,线程的状态变化;

java多线程下:线程同步与共享,多线程协作,线程并发编程新API;

java的新特性:Java注释:注解的概念和Annotation接口,元注解,自定义注解。

枚举:enum关键字和Rnum类。

Java8新特性:使用JDK8编写接口的默认方法,使用JDK8的Lambda表达式,使用JDK8的函数式接口;

MySQL入门安装及使用,MySQL的数据类型;SQL入门:DDL,DML,DRL,DCL:关联查询,子查询

二.关系型数据库:什么是数据库,什么是关系型数据库,表的关联,约束,MySQL的安装及配置,

MySQL的数据类型,数据库结构定义DDL,数据操纵语言DML,数据查询语言DRL,数据访问DCL;

MySQL关联查询:笛卡尔积,关联条件,交叉连接,内连接,外连接,自链接

三,阿里巴巴《码出高效》编码规约:命名,定义,格式,OOP规约,集合处理,并发处理,控制语句,注释规约;

阿里巴巴《码出高效》数据库规约:建表规约,索引规约,SQL语句,ORM映射

实战项目电商大数据从零搭建包含CDH,HDP,开源搭建等三种搭建方式

广告流量的实施统计,基于用户兴趣的商品推荐系统

基于ALS的协同过滤推荐,基于购买行为的商品推荐

适合人群新手、小白,转行人员,想学习大数据,基础不牢固

零基础大数据新手学习路线教程_第1张图片

在学习大数据的过程当中有遇见任何问题,可以加入我的Java/大数据交流学习秋秋qun:七三二、三零八、一七四,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习大数据有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我

第二阶段:Linux+Hadoop系统离线计算处理模块+大数据分布式弹性搜索引擎ElasticSearch(ES)

知识点

  • Linux系统的实战与应用:Linux简介,Linux的分类,Linux的常用版本,虚拟机安装,
  • Linux安装Linux目录结构,Linux常用命令行,Linux的权限命令,Linux的用户操作,
  • SSH免密登录设置,Linux网络配置,Linux远程工具的使用,安装JDK
  • 项目实战:CentOS系统操作、安装Linux系统企业常用软件、熟悉Linux环境下编程
  • Hadoop离线计算处理模块:Apache Hadoop的体系结构,Hadoop2.X,eclipse配置设置
  • Hadoop应用案例分析,Hadoop应用案例分析,Hadoop数据压缩
  • 实验环境,YARN分布式管理平台,HUE智能分析管理平台
  • CDH大数据平台管理工具,Ooize工作流任务调度引擎
  • Hive数据仓库,Pig解析大数据高级过程语言,Hbase分布式的开源数据库
  • Zookeeper分布系统的可靠协调系统:zookeeper功能与应用,集群分配原理,命令行客户端,
  • zookeeper集群自动启动脚本,java客户端,分布式应用系统服务器的上下线动态感知程序的开发,
  • zookeeper客户端线程的属性-守护线程,分布式共享锁的逻辑
  • Flume数据采集框架:Flume流程模型简介,Flume安装,Flume官网案例,
  • Flume企业级案例一/二/三/四/五;Flume监控
  • Azkaban任务调度工具:shell脚本的使用,MapReduce的AZ使用,关联job的依赖,
  • Hive的AZ使用,HDFS的AZ使用
  • Sqoop高效传输批量数据的工具,Zookeeper分布式系统的可靠协调系统
  • 流量汇总程序开发,Combine案例,InputFormat案例,mapjoin,reducejoin
  • hdfs小文件优化,MapReduce优化,分布式共享锁的逻辑,Hive的窗口函数,数据倾斜
  • 大数据分布式弹性搜索引擎ElasticSearch:什么是搜索;数据库搜索;什么是ElasticSearch;
  • ElasticSearch适用场景;ElasticSearch特点;ElasticSearch核心概念:近实时;Cluster(集群);
  • Cluster(集群);Node节点;Index(索引-数据库);Type(类型-表);DocumentDocument(文档-行);
  • Field(字段-列);mapping(映射-约束);ElasticSearch与数据库的类比;
  • ElasticSearch存入数据和搜索数据机制;ElasticSearch分布式搭建;
  • ElasticSearch Java API操作:操作环境准备,获取Transport Client,创建索引,删除索引,删除索引,
  • 源数据json串,源数据map方式添加json,源数据es构建器添加json,单个索引,多个索引,update,upsert,
  • prepareDelete,条件查询QueryBuilder,查询所有(matchAllQuery),字段分词查询(queryStringQuery),通配符查询(wildccardQuery),模糊查询(fuzzy)
  • 实战项目
  • 电商大数据从零搭建包含CDH,HDP,开源搭建等三种搭建方式
  • 广告流量的实施统计,基于用户兴趣的商品推荐系统
  • 基于ALS的协同过滤推荐,基于购买行为的商品推荐

第三阶段:面向大厂、国际化开发人员Git、gitHub实战应用+Docker应用引擎

知识点

  • 一.分布式版本控制系统Git、gitHub项目托管平台的实战与应用
  • Git分布式控制的实战与应用:git简史和介绍;git在win,mac,centos安装和配置;
  • git本地库,暂存区,本地库名词解释;git初始化,代码更新,提交,回退,文件比较等操作;
  • git branch checkout等分支操作;git rebase,merge区别;代码回滚revert,reset;
  • 面向大厂,国际化开发人员gitHub的实战应用:创建gitHub账户,以及添加SSH配置;
  • 远程库拉取,更新,代码合并;向开源项目提交pull request和patch;
  • git tag 和release等操作;在idea工具向gitHub提交代码;
  • 掌握大公司代码开发流程;掌握版本控制的基础操作,历史回滚,分支操作代码同步;
  • 围绕Pull Request来展开的团队内部协作流程和开源项目贡献流程;
  • gitHub具体技巧,用lssues进行项目讨论;
  • 合并开源社区的pr(例如spark的pull request);搭建内部的代码提交平台gitlab;
  •  
  • 适合人群
  • 如果想在大公司做开发,而且有目标做自己的开源项目并向其他开源项目提交代码,那么必须掌握git和gitHub,即是 这些你都不想,那么如果你想coding方面长远发展,掌握git会助你更上一层楼。
  •  
  • 以下企业正在使用git及gitHub
  • 拉勾网、Keep、快如科技、字节跳动、去哪儿网、奇虎360金融、美团点评、知乎、京东集团、汽车之家、小米、百度、宜信、瓜子二手车直卖网、滴滴出行、爱奇艺、陌陌、搜狐集团、七牛云、好未来、马蜂窝、阿里巴巴-高德、熊猫直播、逻辑思维、饿了么、新浪网、新浪微博等.
  •  
  • 二.大数据Docker容器化从入门到实战开发
  • Docker从无到有的实战应用:为什么要使用docker?docker基本组成概念;docker安装;
  • docker获取,创建,导入,保存,删除镜像;docker其他重要命令介绍与操作;docker单机容器内部互联;
  • 数据卷容器备份,恢复,迁移;docker容器绑定外部IP和端口;docker阿里云加速镜像配置;
  • Docker及Dockerfile搭建镜像,私有仓库,集群:Dockerfile基本介绍;Dockerfile中的重要命令介绍和使用;
  • 实战Dockerfile构建Spark,Hadoop镜像;docker搭建私有仓库;docker跨主机互联(方式1):路由;
  • (方式2):flannel+etcd;docker-compose介绍;docker-compose测试,生产,开发环境构建;
  • docker-compose搭建Spark kafka集群;提交代码测试集群;Docker的高级实战项目应用:
  • docker-compose搭建web服务器和nginx;docker进阶之缩减容器大小;docker进阶之cache机制;
  • docker进阶之镜像内部窥探;docker进阶之logs;docker可视化监控平台搭建;docker搭建gitlab;
  •  
  • 学完Docker的收获
  • Docker容器为什么这么火?Docker容器应用场景?Docker容器企业应用案列?怎么建设Docker容器基础架构?生产环境使用Docker正确姿势?搭建私有仓库?使用Docker搭建hadoop,spark,kafka等集群. 首先从入门教你安装Docker,接着学习Docker核心功能:例如镜像,容器,网络等知识点。再接着学如何定制化容器镜像并使用Harbor统一管理容器镜像,最后图形管理和容器监控。均以更佳实践讲解,确保实用性,实战性。
  •  
  • 适用人群
  • Docker技术已经成为大数据工程师,运维工程师,开发工程师,测试工程师,架构师职位必备的专业技能之一,特别是解决开发人员环境部署,部署升级等问题,非常有必要深入学习下,提升职业竞争力
  •  
  • 以下企业正在使用Dcker
  • 新浪网、新浪微博、百度、小米、搜狐集团、爱奇艺、360企业安全、滴滴出行、今日头条、抖音、58到家、京东集团、搜狗、宜信、金山云、联想集团、国美控股集团、美团点评、马蜂窝、快手、汽车之家、创新工场AI工程院、拉勾网、face++、知乎、新东方、好未来、人人网等。
  •  
  • 实战项目
  • 电商大数据从零搭建包含CDH,HDP,开源搭建等三种搭建方式
  • 广告流量的实施统计,基于用户兴趣的商品推荐系统
  • 基于ALS的协同过滤推荐,基于购买行为的商品推荐

零基础大数据新手学习路线教程_第2张图片

第四阶段:Storm实时计算处理模块

知识点

  • 组件模块,Redis缓存中间件,开发任务的主程序设计
  • Storm实时计算简介,图形解释,集群搭建,核心组件,系统架构,常用命令操作
  • Storm-WordCount分析,开发WordCount的Spout组件和Bolt组件
  • Storm的内容大纲,技术角度详细讲解,工程部署,单机和集群开发
  • Storm任务提交流程,启动流程,设置参数,内部通信
  • Storm与其他中间件集成Api,开发任务的主程序设计
  •  
  • 实战项目
  • 地区销售额需求分析和架构设计,图表秒级无刷新实时展示
  • Spout融合Kafka Consumer及线程安全测试
  • HighCharts图表开发一及Web端架构设计

第五阶段:Flink新一代计算引擎

知识点

  • Flink介绍,Flink架构,企业任务提交,Flink无界数据集,
  • Flink-DataSource,jar包任务的提交,Flink有界数据集,
  • Flink-sink,SSL设置,Flink执行模型,Flink集群安装,Flink运行状况监控,
  • Flink特点,Flink的UI界面使用,Flink的文件系统的支持,
  • Flink流计算模型,Flink-WorkCount,Flink的HA
  •  
  • 实战项目
  • Flink企业应用阶段性项目
  • Flink处理大批量数据架构阶段性
  • 监控维基百科的编辑日志项目

第六阶段:大数据Spark内存计算架构+高并发高吞吐架构设计

知识点

  • 1.Kafka消息队列模块:Kafka介绍与构架原理,Kafka安装部署,Kafka生产者与消费者及写入流程
  • Kafka消费流程,Kafka-API编写,kafka ProducerAPI,Kafka拦截器API,Kafka StreamsAPI
  • 2.Scala语言:Scala基础语法,Scala函数式编程,Scala数组,Scala集合,Scala单机版WordCount,
  • 面向对象,Actor编程,AKKA编程,RPC框架,隐式转换
  • 3.Spark内存计算模型详解:Spark介绍与集群安装,执行Spark程序,Spark-WordCount编写,
  • Spark算子RDD,RDD高级算子,潭州课堂更受欢迎课堂案列,潭州课堂根据学科过滤学院,Partition分区,
  • IP归属地查找案列,Spark操作MySQL的API,Spark提交任务流程,RDD缓存机制,RDD的checkPoint机制,
  • Spark中的stage与依赖的划分,SparkSQL,SparkStreaming,Spark-Flume整合,Spark-kafka整合

实战项目

  • 数据分析案例;SparkSQL企业级案例;
  • SparkStreaming企业级案例;SparkRDD企业级使用;
  • Flume采集数据到Spark端数据处理案例;

会这些东西你就成为一个专业的大数据开发工程师了,月薪2W都是小毛毛雨

零基础大数据新手学习路线教程_第3张图片

 

你可能感兴趣的:(大数据)