本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER
本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。
跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。
多易教育,专注大数据培训; 课程引领市场,就业乘风破浪
多易教育官网地址
https://www.51doit.cn
多易教育在线学习平台
https://v.51doit.cn
概念上:数据仓库,英文名称为Data WareHouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理、运营决策。
(通俗来说,数仓就是一个数据备份和数据分析的系统)
通常指的是数据库软件,比如mysql,oracle,sqlserver,db2
数据库应用场景1:联机事务处理
数据库软件用的最多的应用场景,就是联机事务处理OLTP(online transaction process)
比如:电商系统中的数据库,银行系统中的数据库,办公管理系统OA中的数据库,沃尔玛的销售系统中的数据库;
联机事务处理的要求:
第一,时刻保持联机在线状态,而且要求各种操作(增删改查)请求能得到实时响应
第二,能支撑强有力的事务控制(事务的四个特性:原子、一致、隔离、持久)
像mysql、oracle、db2、sqlserver这些传统的关系型数据库,都是能够用来很好地胜任联机事务处理场景的!
数据库应用场景2:数据分析
数据分析又可以分为:
1)联机数据分析(OLAP)
2)离线数据分析
两者的混合体是更常见的情况
在业务系统中的联机事务处理数据库,随着业务运行时长的增长,库中的业务数据越来越多,会产生两个问题:
1)联机事务处理的速度会越来越慢
2)针对这么大量的数据进行报表分析会耗费太多运算和IO资源,导致联机事务处理被阻塞
由此,引入数据仓库的概念:
将联机事务处理数据库中的数据不断导入另外一个数据库库系统进行存储,而且也可以在这“另一个数据库”系统上对各种长时间跨度数据进行复杂数据分析、统计!
这“另一个数据库”就是承担了“数据仓库”的角色!
而根据构建“数据仓库”的软件特性不同,数据仓库所支持的数据分析性能也不同:
1.如果是用各类关系型数据库如mysql、oracle等构建的数据仓库,可以支持离线数据分析,也可以支持联机数据分析!
2.如果是hive这种软件构建的数据仓库,只能支持离线数据分析!
报表即统计计算结果,也就是一张数据库表,一般存储在mysql中
只是,放在mysql中,对于运营分析人员(非技术人员)不方便查看和使用!
所谓可视化,就是将数据库中的数据表,以更友好的方式展(比如图,比如表格)现在一些“界面”上(比如桌面软件,比如web页面,比如excel等),以便于数据运营、分析人员能够更加直观地对数据进行查看和理解、分析
ETL中文全称为:抽取.转换.加载 extract transform load
ETL是传数仓开发中的一个重要环节。它指的是,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。
在传统数仓领域中,这项工序,大部分公司都是通过使用一些成熟的ETL软件来实现的,这些软件的使用,都不需要手工编程,只需要在软件的界面上,做一些参数配置,拖拽操作,就可以生成数据抽取任务并能够对这些任务进行“调度”。
比较流行的ETL软件:
主题: 是将数据分析按它所围绕的“主题”做的逻辑分类
用户分析主题
日新统计报表
日活统计报表
留存分析报表
来源分析报表
…
流量分析主题
pv概况统计报表
pv来源分析报表
pv热点页面分析报表
pv热点栏目分析报表
…
app分析主题
app版本分布统计报表
app升级情况统计报表
…
GMV销量分析主题
gmv总额统计报表
gmv品类统计报表
gmv品牌统计报表
gmv增长趋势报表
…
从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。
即对访问你网站的访客进行分析,基于这些数据可以对网页进行改进,以及对访客的行为进行分析等等
分析从下单到支付整个过程的数据,帮助你提升商品转化率。也可以对一些频繁异常的数据展开分析。
这里主要就是分析客户的价值,可以建立RFM价值模型,找出那些有价值的客户,精准营销等等。
主要分析商品的种类,那些商品卖得好,库存情况,以及可以建立关联模型,分析那些商品同时销售的几率比较高,而进行捆绑销售,有点像啤酒喝尿布的故事。
主要监控某次活动给电商网站带来的效果,以及监控广告的投放指标
如下图所示:
除图中所列主题以外,本项目还将实现以下分析主题:
(一)转化率分析
(二)销售分析
(三)广告效果分析
(四)用户行为规律分析
多易教育,专注大数据培训; 课程引领市场,就业乘风破浪
多易教育官网地址
https://www.51doit.cn
多易教育在线学习平台
https://v.51doit.cn
本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER
本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。
跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。