session聚合总结 以及后续部分

1、公共组件
1.1 配置管理组件
1.2 JDBC辅助组件
1.3 工具类
1.4 模拟数据生成程序
1.5 单元测试
1.6 domain、dao

2、第一个模块:用户访问session分析模块
2.0 基础:session粒度聚合、按筛选条件进行过滤
2.1 session聚合统计:统计出访问时长和访问步长,各个区间范围的session数量,占总session数量的比例
2.2 session随机抽取:按时间比例,随机抽取出100个session
2.3 top10热门品类:获取通过筛选条件的session,点击、下单和支付次数最多的10个品类
2.4 top10活跃session:获取top10热门品类中,每个品类点击次数最多的10个session

3、技术点和知识点
3.1 正规的大型大数据项目的架构(公共组件的封装、包的划分、代码的规范)
3.2 复杂的大数据分析需求(纯spark作业代码,1500行+)
3.3 Spark Core大部分算子在实际项目中的综合应用实战:map、reduce、count、group
3.4 高级技术点:自定义Accumulator、按时间比例随机抽取算法、二次排序、分组取TopN算法
3.5 标准和正规的大数据项目开发流程:数据调研、需求分析、技术方案设计、数据库设计、编码实现、单元测试、本地测试

4、完成了第一个业务模块:用户访问session分析,开发

5、走完剩下的流程:性能调优、生产环境测试

6、接下来要做什么?:
6.1 性能调优:按照本人开发过的大量的单个spark作业,处理10亿到100亿级别数据的经验,要针对我们写好的spark作业程序,实施十几个到二十个左右的复杂性调优技术;性能调优相关的原理讲解;性能调优技术的实施;实际经验中应用性能调优技术的经验总结;掌握一整套复杂的Spark企业级性能调优解决方案;而不只是简单的一些性能调优技巧(网上一些博客、其他一些视频、其他一些书)
6.2 数据倾斜解决方案:针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表现,以及处理后的效果总结
6.3 troubleshooting:针对写好的spark作业,讲解实际经验中遇到的各种线上报错问题,以及解决方案
6.4 生产环境测试:Hive表

你可能感兴趣的:(实战)