大数据实战项目的知识点

1、大数据集群环境的搭建

CentOS 6.8、
hadoop-2.7.3、
hive-0.13.1
zookeeper-3.4.10
kafka_2.10-0.10.2.0、
flume-ng-1.7.0
日志采集流程、
Spark 1.6.3

2、企业级大数据项目的架构搭建

Java、配置管理组件、JDBC辅助组件（内置数据库连接池）、Domain与DAO模型
scala：只适合用于编写一些比较纯粹的一些数据处理程序（比如说一些复杂的数据etl）

真正的讲师本人做过的项目的原型，技术的使用上，要比这个复杂很多
Spring、
MyBatis（半自动ORM框架），
复杂的代码组件的管理（Spring），
复杂的底层数据库CRUD的操作（MyBatis）

用到了一些额外的辅助组件，
包括redis（缓存）、
kafka（消息队列，spark一边处理数据，一边往kafka中写）

唯一的选择，就是java。scala？？？（不现实）
scala会调用很多底层的java代码，造成项目的多编程语言的混编；最终导致整个项目的可维护性、可扩展性极差

3、J2EE与Spark组成的交互式大数据分析平台架构

没有讲解j2ee，但是至少给大家讲解清楚了j2ee与spark组成的大数据平台架构，拓展了大家的知识面
而且，这是根据本次项目课程的原型项目
大家要知道，即使是本套项目课程，你做出来的东西，
都是要放在j2ee与spark的架构中的（task、spark触发、spark结果如何被展示）
特别是拿出去面试找工作的时候，这个架构要说清楚，j2ee层不是你做的就可以了

4、企业级大数据项目的开发流程

贯穿了整个项目，每个模块，基本上都是按照这个完整的流程来的

数据分析（来源数据的分析）
需求分析（基于上述数据，要实现什么样的需求和功能）
技术方案设计（基于来源数据与需求，以及你所掌握的spark技术，设计方案来实现需求功能）
数据库设计（技术方案设计完了以后，要配合着技术方案，设计数据库中表）
编码实现（基于上述所有的东西，使用你掌握的spark技术，来编码，实现功能）
功能测试（包括本地测试和生产环境测试，spark的client和cluster的说明）
性能调优（spark core、spark sql、spark streaming）
troubleshooting（项目上线以后，要及时解决出现的线上故障与报错）
解决数据倾斜（后期维护过程中，可能会出现的严重的性能问题）

5、一套项目课程，

全面涵盖了90%以上的Spark Core、Spark SQL和Spark Streaming，几乎所有的初中高级技术点；
全面锻炼了学员的spark大数据项目实战能力；
视频至少看一遍（最佳是两遍以上），
代码至少三遍（一遍根据视频copy代码跑起来理解流程，一遍跟着视频敲，一遍脱开视频自己敲）；
将大数据项目与spark技术融会贯通

6、用户访问session分析模块

用户session分析业务：

复杂业务逻辑，
session聚合统计、
session随机抽取、
top10热门品类、
top10活跃用户

技术点：

数据的过滤与聚合、
自定义Accumulator、
按时间比例随机抽取算法、
二次排序、
分组取topN

性能调优方案：

普通调优、
jvm调优、
shuffle调优、
算子调优
troubleshooting经验
数据倾斜解决方案：7种方案

7、页面单跳转化率模块

小小的特色，而且主要是互联网行业中非常常见的一些需求
页面单跳转化率计算业务
页面切片生成以及页面流匹配算法

知道，如何去计算网站 / app的页面之间的流转路径的转化率

8、各区域热门商品统计模块

Spark SQL

区域级别的热门商品的统计业务

技术点：

Hive与MySQL异构数据源、
RDD转换为DataFrame、
注册和使用临时表、
自定义UDAF聚合函数、
自定义get_json_object等普通函数、
Spark SQL的高级内置函数（if与case when等）、
开窗函数（高端）
Spark SQL数据倾斜解决方案

9、广告点击流量实时统计模块

广告点击流量的实时统计的业务
技术点：动态黑名单机制（动态生成黑名单以及黑名单过滤）、transform、updateStateByKey、transform与Spark SQL整合、window滑动窗口、高性能写数据库
HA方案：高可用性方案，3种
性能调优：常用的性能调优的技巧

10、贯穿了大量讲师在大数据行业内的从业经验以及所见所闻，帮助学员丰富行业阅历（“闲话”）

职场的言谈举止，对职业发展是极大的，什么该说，什么不该说，有问题要不要问同事，一句话什么情况下可以说，什么不能说，对于初入职场的同学们，是非常的重要的。

11、赠送完整spark大型大数据项目的商业级别的源代码，

价值上百万（稍加改造，二次开发，甚至可以直接用于你的企业的大数据行为分析）
本身是没有价值的，但是问题是，网上没有任何这种资料；
所以价值自然高昂；价值百万，并不是说真的可以值100万；
价值是非常之高的，无可比拟的价值

《Spark从入门到精通》课程：
根据学习程度的不同+本身工作年限的不同，1~2年的spark大数据开发经验
《Spark大型项目实战》课程：
根据学习程度的不同+本身工作年限的不同，加上之前的《Spark从入门到精通》的学习的话，2~3年的spark大数据开发经验

你在国内，大数据行业里面，无论是什么级别的公司，从BAT到初创企业；你都可以称之为自己是spark的高手、甚至“大牛”；

12、学习这套课程给你带来的价值

面试，没有任何问题。。。
做项目，没有任何问题。。。

应聘岗位
spark高级开发工程师、spark资深开发工程师
spark配合着你的hadoop、hbase、hive、zookeeper、flume、kafka、storm等大数据生态圈的深厚功底：可以达到大数据架构师级别

大数据实战项目《大型电商日志分析》的知识点