第六讲主题:数仓中的数据治理

数据治理要做啥?
实际上数据治理的范畴相当广泛,
按照Google对于数据治理的定义,
它包含了数据生命周期(从获取、使用到处置)
内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术

本质:
1.合规, 使用效率就会提高
2.降本增效, 根本就是降低成本, 更少的钱干更多的事
3.团队人员技术提升

1.1元数据合规:
1.2数据安全合规: 不能被下游随意引用
1.3数据质量合规: 质量问题发生频发,缺少链路保障

1.4资源治理  
1.5计算治理  代码优化, 有效任务


在哪个业务发展阶段做数据治理:中后期
业务发展四大阶段:
1.探索期
2.拓展期 需求很多 数据应用 数据资产
3.发展期 数据治理 数据安全 指标口径 元数据管理
4.变革期 精细化运营, 提高治理效率--重新整顿哪些地方
把团队总包的成本 降本增效


数据治理阶段

数据治理内容:
1.数据治理平台
数据治理平台中有 
数据治理360:大盘, 健康诊断, 消耗内容 调度任务

2.合规
---数据质量
2.1问题: 仍有数据问题产生
2.2思路: 质量标准->强管控->定期扫描->体系化
2.3规范化

2.4强管控 
2.4.1 dqc 建议使用强规则(不合规,直接中断告警)
(dqc为了数据准确)
基础dqc 业务dqc
dqc问题治理:1.波动阈值修复/预测 2.未被引用数据模型sqc空跑

2.4.2 数据基线及sla 
(sla为了数据按时交付)
数据基线: 1.上线前把控,保障基线正常 2.核心任务优先产出
sla: 数仓的数据产出时

你可能感兴趣的:(大厂大数据泛讲,大数据,数据仓库,sql)