数仓相关

数仓小思考

1.为什么使用关系型存储用户业务数据

RDMS(关系型数据库)是基于OLTP(online transaction process在线事务处理)设计,重事务和在线处理

2.用户行为数据和用户业务数据的区别

用户行为数据侧重于记录事件,用户业务数据侧重记录完整的事实

3.为什么采用json存储用户行为数据

  1. 用户行为数据低价值密度,记录周期长,结构复杂
  2. json格式比xml少了标志类信息,占用空间小。比csv等文本文件多了结构信息,方便管理。

4.为什么采用sqoop采集业务数据

sqoop针对关系型数据库RDMS与HDFS之间的数据导入导出,采用批量的方式进行数据传输。
业务场景的需求

5.为什么采用双层flume架构

  1. 安全性,分割内外网
  2. 中间加kafka对数据进行削峰,同时也可以对NN的请求进行负载均衡
  3. 后续实时计算要求必须使用kafka对数据进行分流(使用flume进行分流严重影响程序的健壮性)
  4. 分层解耦,方便管理

你可能感兴趣的:(数仓,大数据,数据仓库)