千亿级数仓项目第一章

千亿级数仓项目
总体介绍
数仓: 数据仓库
数据集市
阶段一
项目背景介绍
阶段二
准备数据(Mysql->Hive)
Kettle
sqoop
阶段三
数据仓库理论+实战
阶段四
编写SQL实现以下业务分析,并按照数据仓库结构存出结果
基于日期的订单指标分析(4)
基于地域的订单分类指标分析(18)
基于用户的订单指标分析(24)
基于用户的退货指标分析(5)
阶段五
使用kylin对结果数据进行预计算
阶段六
点击流分析
阶段一
了解大数据离线数仓架构
了解项目部署环境(数据规模和集群规模)
了解项目ER图
了解项目需求
行业业务系统
商家入驻平台
平台进行资质审核
自己发布商
电商平台子系统
网站前台
运营商后台(JD/淘宝/天猫/拼多多)
商家管理后台(商家自己的后台)
项目业务流程
电商行业JD/淘宝/天猫/拼多多拥有的资源
用户
店铺/商家
项目的目标和意义
如何在海量的客户海量的商品之间找到结合点,达成更多的电子交易
能够在一定程度上促进消费。
项目能掌握的技能
1、数据仓库的概念和建设过程
2、离线数据仓库的功能、使用场景和常用的技术栈
项目架构
Mysql hive(ODSDWADS)MYsql(结果)
Kylin(预计算)
千亿级数仓项目第一章_第1张图片
使用到的技术
Mysql:线上数据存储
Kettle:用于数据同步(MysqlHive)
Hive:数据仓库使用的技术
Spark SQL:数据计算/指标分析(ODSDWADS)
DataX:数据导出组件
Kylin:数据预计算
项目环境介绍
业务数据量
用户数:300W
每日订单量:10W
每日交易额:700W
商家数:5W
商品数:45W
PV:500W
UV:50W
数据在hdfs中平均每天 40G左右的速度增长,存储3份,每天增长大概120G,【集群如何规划】
硬件资源
数量:30台
CPU资源:24核
内存:128G
硬盘:4T
集群存储容量不足时怎么办?
两种解决方式:
1:增加磁盘,对磁盘扩容,
2:把之前的历史数据导出,hadoop归档技术,可以方便导出我们大数据集群,避免占用集群的资源,再把数据导入即可。
项目ER图
E-R图也称实体-联系-图(Entity Relationship Diagram),
描述现实世界的概念模型
表示实体类型、属性和联系的方法。
千亿级数仓项目第一章_第2张图片
E-R图的好处:
在多表关联查询时,能够更清晰的获取出查询语句的思路(编写SQL的流程)

本项目原始(Mysql)数据介绍
原始表:
千亿级数仓项目第一章_第3张图片
本项目ER图:
千亿级数仓项目第一章_第4张图片
Kettle介绍
是一个 ETL工具
什么是ETL
用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程
使用kettle,必须明确数据在哪里读取! 将数据写入到哪里!
考虑数据是否需要删减
项目需求
千亿级数仓项目第一章_第5张图片
千亿级数仓项目第一章_第6张图片
项目需求实现查询功能(写SQL)或整查询流程参见《初级查询实现》

你可能感兴趣的:(千亿项目)