数据治理内容

https://space.bilibili.com/405479587 文章内容来源b站up主,语兴呀

数据治理内容
一.模型:
由于早期业务快速扩张,对元数据把控不到位,导致成熟期出现大量不合规模型
解决:数据标准:元数据补充
建设管控:大的需求进行模型评审
定期扫描:不规范的模型分层引用、模型跨ods层依赖,空表、未更新表等
烟囱模型及时下线:烟囱表及时切换/下线,提升核心数据模型复用率

二、资源
存储:
业务发展中,存在大量无用待下线的数据表,及生命周期设定过长的数据表,未做整治,梳理出长期未被使用/引用模型,及生命周期不符合当前标准模型,未分区,空表,文件数,文件格式等(通过数据血缘模型或平台捞出)

	方案:
	   设置合理的表周期
	   长期未引用、使用表下线
	   压缩、存储格式优化:ods使用zlib压缩、dwd, 使用parquet+snappy dm准备由parquet+snappy 转为parquet+zstd
	   定期扫描:空表:表格式、未设置生命周期、未设置分区
	   切换数据格式
	   
 计算:
		梳理出数据倾斜,消耗大,运行时间过长,空跑等任务(通过meta模型或平台捞出)
		1.根据梳理的存储,下线相对应的计算任务
		2.运行时长过长、资源消耗大任务找原因
		3.针对任务调度时间规划不合理,导致凌晨时间段资源消耗较高任务,提前/延后任务调度时间,做到资源合理分配利用
		4、对于数据价值较低/烟囱开发/无效监控项任务,需要及时下线或将字段迁移至核心表
		5、规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行
		6、
		
小文件治理 :spark3、定期扫描、合并

如何评价一个数仓的好坏
从技术方面,数据仓库应该具有成本、质量、效率要求,安全方向方面的能力,从业务方面,数据仓库应该支撑业务建设,覆盖尽可能多的业务场景,需要数据时能够及时取到,能满足业务数据化需求

1.数据质量
   评估方法:准确性、及时性、一致性、流程完整性
   流程:
		事前预防:监控。事后复盘:完善dqc规则和告警
2.模型建设
	评估方法:规范度、元数据完善度、复用度、稳定性、扩展性、合理性
3.数据安全
     评估方法:角色权限是否划分、权限管控、数据表是否分级、对外数据是否脱敏
4.成本、性能
      评估方法:无用表、任务是否及时下线、表生命周期是否合理、数据倾斜任务数、运行时长过长任务数、空跑任务、小文件过多数据表、成本管理
5.用户用数体验
6.数据资产覆盖

你可能感兴趣的:(hive,spark,hadoop,大数据)