《大型综合项目-基于大数据平台的数据仓库》学习笔记之(05):数据采集篇

本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER

本课程项目涵盖数据采集与预处理数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。

跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。


一、日志埋点技术

用户行为数据,通常是通过埋点技术来采集;
埋点:就是在业务程序中,植入一些代码,来收集用户行为,并向日志服务器发送行为数据;

埋点技术分:前端埋点后端埋点

       前端埋点技术:HTML页面用js / android 使用安卓sdk / 微信小程序使用微信小程sdk等
       后端埋点技术:如果是java写的后端系统,则在后端系统中使用java代码来收集数据;

埋点日志生成流程:
埋点代码–》发送请求–》 日志服务器(nginx)–》记录日志到服务器的本地磁盘

《大型综合项目-基于大数据平台的数据仓库》学习笔记之(05):数据采集篇_第1张图片

埋点日志的类型:
移动端埋点日志(包括APP,H5,微信小程序等)
PC端埋点日志

埋点日志示例:
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(05):数据采集篇_第2张图片

二、Flume采集系统架构图

Flume日志汇聚示意图:
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(05):数据采集篇_第3张图片

第1级agent:  
source: tailDir
channle: fileChannel
sink:   avro sink1 , avro sink2
两个sink组成一个sink组,组策略为: failover(失败切换)
第2级agent:
source:  avro source
channel:  fileChannel
sink: hdfs sink

日志埋点及采集全流程示意图
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(05):数据采集篇_第4张图片

三、4.3Sqoop/DataX采集业务数据

sqoop工具的使用,请参考《【多易教育-sqoop实战教程】》

1、导入策略分析
1)、要导入的表
通过对报表统计需求的分析(我们要做的报表主要跟订单金额有关),所以,我们要从业务库中导入的表有如下:
用户信息表
商品信息表
品类信息表
品牌信息表
订单信息表
订单详情表
购物车表
2)、导入的策略

导入的策略通常有两种:
全量导入
增量导入!

选择的依据:数据变动是否很频繁!数据量是否很大!

变动不频繁,但是还是有变动,而且数据量大,则用增量!
变动频繁,或者数据量不大,干脆全量导入!

用户信息表   -- 全量导入
商品信息表   -- 全量导入
品类信息表   -- 全量导入
订单信息表   -- 增量导入(根据update_time)
订单详情表   -- 增量导入(根据update_time)
订单收货人信息  -- 增量导入

(增量导入的数据表,为了能够方便查询任何指定日期的业务表状态,可以在数仓中做拉链表)
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(05):数据采集篇_第5张图片

3)、数据导入脚本开发

技术选型:用sqoop来实现!

2、用户信息表数据导入ODS

《详见项目代码》

3、订单信息表数据导入ODS

《详见项目代码》


本项目教程笔记源自多易教育《Titan综合数据仓库与数据运营系统》,在CSDN学院有相关视频教程购买链接,大数据企业级项目实战–Titan大型数据运营系统
本项目课程是一门极具综合性和完整性的大型大数据项目实战课程,课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER

本课程项目涵盖数据采集与预处理数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。

跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建…逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。

你可能感兴趣的:(大数据综合实战项目)