《大型综合项目-基于大数据平台的数据仓库》学习笔记之(01):项目介绍篇

本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER

本课程项目涵盖数据采集与预处理数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。

跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。

一、项目整体背景

本项目所适用的行业或业务背景有: 主营业务在线上(app/网站)进行的公司!(外卖公司、各类app<比如:下厨房;头条;安居客;内涵段子;斗鱼;每日优鲜>、页游、唯品会、拼多多、当当、苏宁易购、国美在线、网易严选、携程、中华会计网校、多易教育、小象学院、慕课网、尚德教育、有钱花、上哪借 ……)

这类公司,都需要针对用户的线上访问行为、消费行为、业务操作行为进行统计分析,数据挖掘!以支撑公司的业务运营、精准画像营销、个性化推荐等,来提高业务转化率,改善公司运营效果!
这些需求,都需要通过构建一个综合数据处理系统来支撑!

1、数据仓库
  • 作为数据的管理和运算中心;
  • 数据存档;
  • 各种统计、运算任务的核心平台;
2、用户画像系统

含义:深入分析用户后给用户打上各种规范标签:年龄,性别,地域特征,偏好特征,价值指数,行为习惯,消费习惯…
作用:对用户进行精准营销,用于支撑精细化营运;

  • 比如,针对不同的人群发放不同的优惠券;
  • 比如,针对不同的人群定制不同的打折规则;
  • 比如,针对不同的人群推行不同的营销活动;
  • 比如,针对流失概率大的人群进行挽留;
3、推荐系统
  • 含义:对不同的人,在不同的场景中,推荐不同的物品的系统
  • 手段:可以根据用户画像及物品相似度,可以根据协同过滤算法等推荐算法
  • 作用:改善用户体验,增加销量

本数据处理系统可以使用离线计算方式实现,也可以使用实时计算方式实现;
更多的是离线和实时结合起来实现;
公司一般会根据不同的需求场景,灵活使用离线和实时技术:

  • 离线:系统化的,计算的数据时间跨度长的,运算量大的任务
  • 实时:对时效要求高的需求

二、项目整体架构

《大型综合项目-基于大数据平台的数据仓库》学习笔记之(01):项目介绍篇_第1张图片

以下是系统中各层级各环节的要点概述

1、预处理

构建各类字典(维表),比如:

  • 地理位置字典
  • 页面信息字典
  • 商品信息字典
  • 用户信息字典
  • GUID字典(全局用户唯一标识)等

对用户行为事件埋点日志进行数据清洗、解析、通用维度集成、GUID标识等运算

2、数据仓库ODS层

ODS层主要是按源数据模型来映射各类源数据

各类埋点日志表:

  • PC端埋点日志表
  • H5端埋点日志表
  • 移动APP端埋点日志表

各类业务表

  • 订单相关表(订单主要信息表、订单商品详情表、订单物流信息表、订单支付信息表)
  • 购物车信息表
  • 活动信息表
  • 优惠券信息表
  • 商品信息表
  • 用户注册信息表
3、数据仓库DWD层

DWD层相对于ODS层的主要变化为,将ODS中的事实数据中某些字段进行进一步拆分,便于后续查询处理;将ODS中的事实数据集成常用的通用维度信息,比如事件维度类信息

比如,订单信息在业务系统的表模型中,是分散存储在很多张表中的,而做数据分析时,这种方式不方便,所以在dwd层,我们对这些表进行了关联得到宽表,例如:

  • 订单主要信息+订单商品详情+订单支付信息+订单物流信息==》订单详情明细表
  • 商品主要信息+商品详情描述+商品品类信息+商品品牌信息==》商品详情明细表
  • 用户注册信息+用户附加信息+用户等级信息 ==》 用户详情明细表
4、数据仓库DWS层

对DWD层的表进行轻聚合运算所得到的各类结果
举例:

  • pv统计中,DWS层会对DWD明细层进行如下聚合:
  • 按会话聚合:得到每一个会话的时长、pv页面访问总数
  • 按用户聚合:得到每个人的会话次数、访问总时长、访问总pv数
数据粒度的变化:DWD是一个pv事件一条记录,而DWS会话聚合表中是一个会话一条记录,而用户聚合表中,是一个用户一条记录

DWS层的表是根据最终分析需求创建出来的一些中间表,所以它的表的个数不像ODS/DWD那样明确,而且数量众多(流量会话聚合表、流量用户聚合表、用户访问历史记录表…

5、数据仓库ADS层

根据数据分析需求设计出来的各种最终结果表(数量众多,会跟随时间的推移不断增加)
举例:日新统计报表、日活统计报表、流量概况报表、用户留存分析报表、用户活跃分析表、用户访问间隔分析表、用户新鲜度报表、app升级统计报表、路径分析报表、转化率分析报表、GMV分析报表、热销商品分析报表、热销品类分析报表、热销品牌分析报表、用户订单画像报表、用户退换货统计分析报表
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(01):项目介绍篇_第2张图片

三、应用系统之OLAP分析平台介绍

前端分析平台上有两个功能:
展示固化的报表数据(通过事先开发好的离线任务每天定时计算–hive)
交互式的联机数据分析OLAP(在分析平台上自定义报表需求,实时得到报表结果–presto)

1、固定报表可视化

《大型综合项目-基于大数据平台的数据仓库》学习笔记之(01):项目介绍篇_第3张图片
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(01):项目介绍篇_第4张图片

2、自由定制查询分析

《大型综合项目-基于大数据平台的数据仓库》学习笔记之(01):项目介绍篇_第5张图片

四、技术选型

项目中所涉及到的技术:

1、采集
  • flume : 分布式日志数据汇聚
  • sqoop : 离线批量抽取数据库
  • cannal : 实时数据库数据逐条监听、抽取
  • nginx插件:前端
2、存储
  • hdfs
  • mysql
  • redis
  • hbase/elastic search :用户画像标签数据的存储查询服务
  • kafka : 实时计算的缓冲
3、运算
  • hive / mapreduce
  • spark core/ sql**
  • flink / spark streaming
4、OLAP引擎
  • Presto
  • Kylin
5、数仓元数据管理(血缘管理)
  • Atlas
6、Job调度系统
  • Azkaban
7、算法
  • spark代码/sql代码实现的通用统计计算;
  • 图计算: SparkGraphx;
  • KNN k近邻
  • KMEANS k均值
  • Naive Bayes朴素贝叶斯
  • Logistic Regression 逻辑回归
  • 随机森林
  • 协同过滤算法
  • 各类相似度算法:欧几里得距离、余弦相似度、皮尔逊相关系数
  • NLP算法:
  • TF-IDF 关键词提取
  • 文本向量化算法
  • 文本相似度算法
  • 文本分类算法
  • 关联规则分析:FP-GROWTH算法/APRIORI算法

本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER

本课程项目涵盖数据采集与预处理数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。

跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。

你可能感兴趣的:(大数据综合实战项目)