数仓设计

(简答题)1.如果让你来设计数据仓库并搭建相关可视化报表,你会考虑哪些问题。

1. 数据推送方式与批次,是推送增量还是推送全量,是一天一次还是一天两次;
2. 推送全量的就全删全插,推送增量的涉及到时间拉链的取法,是滚动时间还是平滑时间;
3. 多次推送的还涉及到数据去重的问题;
4. 从源端推送过来的数据还需要考虑脏数据;
5. 大致框架如下:
src --> landing层(落地) --> staging层(做逻辑处理:脏数据、重数据) --> persistent层(保留所有有效数据)
--> archive (同时备份源数据)
#------------------------------------------------------------------------------
6. 在persistent层上再进行主数据和维度表的开发,考虑需要取哪些业务字段,是从当前架构看历史还是历史架构看历史
7. 最后的可视化报表,可以用power BI制作,也可以用tablea, 考虑哪种呈现方式更加符合业务需求.

(简答题)2.在数据处理过程中,如何保证自己数据的准确性。
源端有所有数据,最后persistent层也保留所有数据
1. 两端的count(1)个数是相等的;
2. 可以抽取数字类型字段取平均值,这样能保证字段没有错位

你可能感兴趣的:(数仓设计)