本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER
本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。
跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。
用户行为数据,通常是通过埋点技术来采集;
埋点:就是在业务程序中,植入一些代码,来收集用户行为,并向日志服务器发送行为数据;
埋点技术分:前端埋点 和 后端埋点
前端埋点技术:HTML页面用js / android 使用安卓sdk / 微信小程序使用微信小程sdk等
后端埋点技术:如果是java写的后端系统,则在后端系统中使用java代码来收集数据;
埋点日志生成流程:
埋点代码–》发送请求–》 日志服务器(nginx)–》记录日志到服务器的本地磁盘
埋点日志的类型:
移动端埋点日志(包括APP,H5,微信小程序等)
PC端埋点日志
第1级agent:
source: tailDir
channle: fileChannel
sink: avro sink1 , avro sink2
两个sink组成一个sink组,组策略为: failover(失败切换)
第2级agent:
source: avro source
channel: fileChannel
sink: hdfs sink
sqoop工具的使用,请参考《【多易教育-sqoop实战教程】》
通过对报表统计需求的分析(我们要做的报表主要跟订单金额有关),所以,我们要从业务库中导入的表有如下:
用户信息表
商品信息表
品类信息表
品牌信息表
订单信息表
订单详情表
购物车表
导入的策略通常有两种:
全量导入
增量导入!
选择的依据:数据变动是否很频繁!数据量是否很大!
变动不频繁,但是还是有变动,而且数据量大,则用增量!
变动频繁,或者数据量不大,干脆全量导入!
用户信息表 -- 全量导入
商品信息表 -- 全量导入
品类信息表 -- 全量导入
订单信息表 -- 增量导入(根据update_time)
订单详情表 -- 增量导入(根据update_time)
订单收货人信息 -- 增量导入
(增量导入的数据表,为了能够方便查询任何指定日期的业务表状态,可以在数仓中做拉链表)
技术选型:用sqoop来实现!
《详见项目代码》
《详见项目代码》
本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER
本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。
跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。
。