大数据实战项目《大型电商日志分析》的知识点

大数据实战项目的知识点

1、大数据集群环境的搭建

CentOS 6.8、
hadoop-2.7.3、
hive-0.13.1
zookeeper-3.4.10
kafka_2.10-0.10.2.0、
flume-ng-1.7.0
日志采集流程、
Spark 1.6.3

2、企业级大数据项目的架构搭建

Java、配置管理组件、JDBC辅助组件(内置数据库连接池)、Domain与DAO模型
scala:只适合用于编写一些比较纯粹的一些数据处理程序(比如说一些复杂的数据etl)

真正的讲师本人做过的项目的原型,技术的使用上,要比这个复杂很多
Spring、
MyBatis(半自动ORM框架),
复杂的代码组件的管理(Spring),
复杂的底层数据库CRUD的操作(MyBatis)

用到了一些额外的辅助组件,
包括redis(缓存)、
kafka(消息队列,spark一边处理数据,一边往kafka中写)

唯一的选择,就是java。scala???(不现实)
scala会调用很多底层的java代码,造成项目的多编程语言的混编;最终导致整个项目的可维护性、可扩展性极差

3、J2EE与Spark组成的交互式大数据分析平台架构

没有讲解j2ee,但是至少给大家讲解清楚了j2ee与spark组成的大数据平台架构,拓展了大家的知识面
而且,这是根据本次项目课程的原型项目
大家要知道,即使是本套项目课程,你做出来的东西,
都是要放在j2ee与spark的架构中的(task、spark触发、spark结果如何被展示)
特别是拿出去面试找工作的时候,这个架构要说清楚,j2ee层不是你做的就可以了

4、企业级大数据项目的开发流程

贯穿了整个项目,每个模块,基本上都是按照这个完整的流程来的

数据分析(来源数据的分析)
需求分析(基于上述数据,要实现什么样的需求和功能)
技术方案设计(基于来源数据与需求,以及你所掌握的spark技术,设计方案来实现需求功能)
数据库设计(技术方案设计完了以后,要配合着技术方案,设计数据库中表)
编码实现(基于上述所有的东西,使用你掌握的spark技术,来编码,实现功能)
功能测试(包括本地测试和生产环境测试,spark的client和cluster的说明)
性能调优(spark core、spark sql、spark streaming)
troubleshooting(项目上线以后,要及时解决出现的线上故障与报错)
解决数据倾斜(后期维护过程中,可能会出现的严重的性能问题)

5、一套项目课程,

全面涵盖了90%以上的Spark Core、Spark SQL和Spark Streaming,几乎所有的初中高级技术点;
全面锻炼了学员的spark大数据项目实战能力;
视频至少看一遍(最佳是两遍以上),
代码至少三遍(一遍根据视频copy代码跑起来理解流程,一遍跟着视频敲,一遍脱开视频自己敲);
将大数据项目与spark技术融会贯通

6、用户访问session分析模块

用户session分析业务:

  • 复杂业务逻辑,
  • session聚合统计、
  • session随机抽取、
  • top10热门品类、
  • top10活跃用户

技术点:

  • 数据的过滤与聚合、
  • 自定义Accumulator、
  • 按时间比例随机抽取算法、
  • 二次排序、
  • 分组取topN

性能调优方案:

  • 普通调优、
  • jvm调优、
  • shuffle调优、
  • 算子调优
  • troubleshooting经验
  • 数据倾斜解决方案:7种方案
7、页面单跳转化率模块

小小的特色,而且主要是互联网行业中非常常见的一些需求
页面单跳转化率计算业务
页面切片生成以及页面流匹配算法

知道,如何去计算网站 / app的页面之间的流转路径的转化率

8、各区域热门商品统计模块

Spark SQL

区域级别的热门商品的统计业务

技术点:

  • Hive与MySQL异构数据源、
  • RDD转换为DataFrame、
  • 注册和使用临时表、
  • 自定义UDAF聚合函数、
  • 自定义get_json_object等普通函数、
  • Spark SQL的高级内置函数(if与case when等)、
  • 开窗函数(高端)
  • Spark SQL数据倾斜解决方案
9、广告点击流量实时统计模块

广告点击流量的实时统计的业务
技术点:动态黑名单机制(动态生成黑名单以及黑名单过滤)、transform、updateStateByKey、transform与Spark SQL整合、window滑动窗口、高性能写数据库
HA方案:高可用性方案,3种
性能调优:常用的性能调优的技巧

10、贯穿了大量讲师在大数据行业内的从业经验以及所见所闻,帮助学员丰富行业阅历(“闲话”)

职场的言谈举止,对职业发展是极大的,什么该说,什么不该说,有问题要不要问同事,一句话什么情况下可以说,什么不能说,对于初入职场的同学们,是非常的重要的。

11、赠送完整spark大型大数据项目的商业级别的源代码,

价值上百万(稍加改造,二次开发,甚至可以直接用于你的企业的大数据行为分析)
本身是没有价值的,但是问题是,网上没有任何这种资料;
所以价值自然高昂;价值百万,并不是说真的可以值100万;
价值是非常之高的,无可比拟的价值

《Spark从入门到精通》课程:
根据学习程度的不同+本身工作年限的不同,1~2年的spark大数据开发经验
《Spark大型项目实战》课程:
根据学习程度的不同+本身工作年限的不同,加上之前的《Spark从入门到精通》的学习的话,2~3年的spark大数据开发经验

你在国内,大数据行业里面,无论是什么级别的公司,从BAT到初创企业;你都可以称之为自己是spark的高手、甚至“大牛”;

12、学习这套课程给你带来的价值
  • 面试,没有任何问题。。。
  • 做项目,没有任何问题。。。

应聘岗位
spark高级开发工程师、spark资深开发工程师
spark配合着你的hadoop、hbase、hive、zookeeper、flume、kafka、storm等大数据生态圈的深厚功底:可以达到大数据架构师级别

你可能感兴趣的:(大数据实战项目《大型电商日志分析》的知识点)