本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER
本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。
跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。
本项目所适用的行业或业务背景有: 主营业务在线上(app/网站)进行的公司!(外卖公司、各类app<比如:下厨房;头条;安居客;内涵段子;斗鱼;每日优鲜>、页游、唯品会、拼多多、当当、苏宁易购、国美在线、网易严选、携程、中华会计网校、多易教育、小象学院、慕课网、尚德教育、有钱花、上哪借 ……)
这类公司,都需要针对用户的线上访问行为、消费行为、业务操作行为进行统计分析,数据挖掘!以支撑公司的业务运营、精准画像营销、个性化推荐等,来提高业务转化率,改善公司运营效果!
这些需求,都需要通过构建一个综合数据处理系统来支撑!
含义:深入分析用户后给用户打上各种规范标签:年龄,性别,地域特征,偏好特征,价值指数,行为习惯,消费习惯…
作用:对用户进行精准营销,用于支撑精细化营运;
本数据处理系统可以使用离线计算方式实现,也可以使用实时计算方式实现;
更多的是离线和实时结合起来实现;
公司一般会根据不同的需求场景,灵活使用离线和实时技术:
以下是系统中各层级各环节的要点概述
构建各类字典(维表),比如:
对用户行为事件埋点日志进行数据清洗、解析、通用维度集成、GUID标识等运算
ODS层主要是按源数据模型来映射各类源数据
各类埋点日志表:
各类业务表
DWD层相对于ODS层的主要变化为,将ODS中的事实数据中某些字段进行进一步拆分,便于后续查询处理;将ODS中的事实数据集成常用的通用维度信息,比如事件维度类信息
比如,订单信息在业务系统的表模型中,是分散存储在很多张表中的,而做数据分析时,这种方式不方便,所以在dwd层,我们对这些表进行了关联得到宽表,例如:
对DWD层的表进行轻聚合运算所得到的各类结果
举例:
数据粒度的变化:DWD是一个pv事件一条记录,而DWS会话聚合表中是一个会话一条记录,而用户聚合表中,是一个用户一条记录
DWS层的表是根据最终分析需求创建出来的一些中间表,所以它的表的个数不像ODS/DWD那样明确,而且数量众多(流量会话聚合表、流量用户聚合表、用户访问历史记录表…
根据数据分析需求设计出来的各种最终结果表(数量众多,会跟随时间的推移不断增加)
举例:日新统计报表、日活统计报表、流量概况报表、用户留存分析报表、用户活跃分析表、用户访问间隔分析表、用户新鲜度报表、app升级统计报表、路径分析报表、转化率分析报表、GMV分析报表、热销商品分析报表、热销品类分析报表、热销品牌分析报表、用户订单画像报表、用户退换货统计分析报表
前端分析平台上有两个功能:
展示固化的报表数据(通过事先开发好的离线任务每天定时计算–hive)
交互式的联机数据分析OLAP(在分析平台上自定义报表需求,实时得到报表结果–presto)
本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER
本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。
跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。