大数据(BIG DATA)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特点:VOLUME(大量)、VELOCITY(高速)、VARIETY(多样)、VALUE(低价值密度)、VERACITY(真实性)。
第一阶段:Java语言基础阶段
1.1.1 计算机语言与编程概述 1.1.2 介绍Java生态圈……
1.2.1 分支循环语句 1.2.2 if分支结构……
1.3.1 软件的生命周期 1.3.2 软件的设计原则……
1.4.1包 (package) 的管理与作用 1.4.2JavaBean规范……
1.5.1包装类(Wrapper Class) 1.5.2装箱和拆箱……
1.6.1枚举定义和使用 1.6.2通过枚举的class文件查看底层实现……
1.7.1数据结构举例剖析 1.7.2数组的定义和使用方式……
1.8.1File类的常用操作 1.8.2递归遍历文件夹……
1.9.1程序,进程,线程的关系详解 1.9.2线程的原理……
1.10.1网络通讯协议 1.10.2网络七层协议……
1.11.1Lambda表达式 1.11.2Java可以函数式编……
1.12.1Tomcat介绍与搭建 1.12.2软件B/S和C/S……
第二阶段:Linux系统&Hadoop生态体系
01、 Linux入门
02 、常用基本命令
03 、系统管理
04 、Linux操作增强
05 、Linux shell编程
06 、Hadoop生态
07、 分布式系统概述
08、 Hadoop入门
09、 Hadoop伪分布式
10、 Hadoop全分布式
11、 HDFS基本概念
12 、HDFS的应用开发
13、 HDFS的IO流操作
14 、NameNode工作机制
15、 DataNode工作机制
16、 Zookeeper入门
17 、Zookeeper详解
18 、HA框架原理
19、 Hadoop-HA集群配置
20 、MapReduce框架原理
21 、Shuffle机制
22、 Mapreduce案例一
23、 Mapreduce案例二
24 、Hive入门
25 、Hive DDL数据定义
26 、Hive分区表
27 、Hive分桶表
28、 Hive查询
29 、Hive的高级查询Join与排序
30 、Hive的函数
31、 Hive DML数据管理
32 、Hive文件存储
33、 Hive企业级调优
34 、Hive企业级调优二
35、 Hive企业级项目实战
36、 Flume详解
37、 Sqoop详解
38、 Hbase概念
39 、Hbase的操作
40 、Hbase整合
41 、Hbase的实战和优化
第三阶段:分布式计算框架
3.1.1 安装idea配置环境变量 3.1.2 Maven本地库配置 3.1.3 JDK环境变量配置 3.1.4 idea版本配置……
3.2.1 大数据架构体系 3.2.2 架构详解 3.2.3 Spark集群介绍 3.2.4 Spark集群配置……
3.3.1 Spark SQL的发展历史 3.3.2 Spark SQL的原理介绍 3.3.3 DataFrame概述 3.3.4 创建DataFrame的方式……
3.4.1 Spark Streaming概述 3.4.2 Spark Streaming的原理介绍 3.4.3 Spark Streaming与Storm对比 3.4.4 DStream的概念……
3.5.1 Kafka的基本概念3.5.2 Kafka的发展历史3.5.3 Kafka的应用背景3.5.4 JMS基础……
3.6.1 全文检索技术简介 3.6.2 ES安装配置入门 3.6.3 ES插件安装 3.6.4 ES基本操作……
3.7.1 Logstash介绍 3.7.2 Input组件介绍 3.7.3 Filter组件介绍 3.7.4 Output组件介绍……
3.8.1 Kibana介绍 3.8.2 Kibana环境准备 3.8.3 Kibana安装 3.8.4 Kibana演示……
3.9.1 什么是NoSQL 3.9.2 NoSQL数据库的分类 3.9.3 Redis介绍 3.9.4 Redis发展历史……
第四阶段:大数据实战项目
4.1 互金领域
项目介绍:构建广告投放平台,进行广告投放业务,吸引潜在客户,推广产品,包含投放微服务平台、竞价模块、客户群体画像、 千人千面推荐产品。
4.2 电商平台
项目介绍: 埋点业务,进行用户细分画像、建立信用体系、进行线上各类活动。
4.3 共享单车
项目介绍: 依据用户行为轨迹构成出行规律,根据用户群体出行规律、区域情况等动态调度用车情况。
4.4 工业大数据
项目介绍:国家电网_省级输/变电监控项目:监控线路的传感设备,确保设备安全、降低故障成本,动态监控线路、变电站二次设备工作情况、报警自动化。
4.5 交通
项目介绍:贵州交通厅,交通离线/实时监控项目:通过交通卡口采集实时数据,动态监控全省各道路通行和事故状况,避免拥堵、避免交通事故、 精准测速、防止套牌和提供便捷最佳出行方案、 预测拥堵系数,为各级提供最优道路规划方案。
4.6 旅游
项目介绍:安顺智慧旅游,整合各类旅游相关应用系统及信息资源,在公安、交通、工商等相关领域实现信息共享、协同合作,共同打造良性的旅游云生态系统。
第五阶段:大数据分析
5.1.1 AI&&机器学习&&深度学习概论 5.1.2 数据科学……
5.2.1 数据分析中常用的Python技巧 5.2.2 Python字符串操作……
5.3.1 Python Matplotlib库 5.3.2 Matplotlib架构……
5.4.1 机器学习的基本概念 5.4.2 分类算法与回归算法……
5.5.1 训练模型 5.5.2 测试模型……
5.6.1 sklearn中决策树重要的参数 5.6.2 通过决策树可以得到特征的重要性得分……
5.7.1 10折交叉验证 5.7.2 模型评价指标及模型选择……
5.8.1 Bernoulli模型 5.8.2 Multinomial模型……
5.9.1 纹理特征 5.9.2 形状特征……
5.10.1 人脸识别 5.10.2 物体识别……
5.11.1 Python常用文本处理函数(字符串操作) 5.11.2 正则表达式……
5.12.1 主题模型及LDA 5.12.2 隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)……