浅谈数据治理(一)

治理工作如何对接下游推进


     1.让下游配合最重要的是调动积极性,让下游感觉到治理能对他们起作用 或者说能让业务方也能做大蛋糕,因为数据治理对于下游来说可有可无 没你数据治理 下游数据模型不也跑的没问题嘛,所以就如花姐刚才说的该警告的警告 该配合的配合,但这个警告也只是表面你可以从费用分摊上去说,也可以从下游痛点去说,共同做好保障措施,让他们也能分到项目大家一起分蛋糕(下游肯定有需要治理的点,其中最痛的是数据质量)
     2.除了这些还可以加一些奖惩措施比如我之前说的解决dq吃dq的活动,让下游觉得配合是有价值的
     3.还可以做到更大的推进作用,比如我们在和bi一起做治理等起了一定规模后可以发治理效果月报/周报 发送全部门,让其他部门也有感知

具体治理的点

  模型合规
     1.数据标准重制定及修复,包括对原来数据域重构,表字段命名体系重构,并对原来模型按照新标准合规改造  
     2.元数据补充 owner、使用说明、字段中文名具体内容、颗粒度声明、主键声明等补充保障下游及内部使用时候清晰 
     3.制度建设:完善模型评审制度、代码提交强审核,保障内容合规后上线 
     4.分层合理性,治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表,建议优化 
     5.数据链路合理性(本次新补充内容):减少因内容不足产出烟囱模型,从而相互依赖加长链路情况

  数据质量合规
     1.流程化,任务上线/变更流程,指标变更流程 
     2.dqc管控:对原4大基础dqc进行补充以及核心业务模型dqc补充,并对原无效dqc下线,对常触发dqc进行调整(例如表行数波动,可通过算法对近7天数据量监测) 
     3.sla及基线治理(这里也可以放到人员运维roi治理中):上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份快恢能力临时修复数据 
     4.上游问题数据治理:数据质量长期监测体系(详情见课程3-数据质量课件)
   
  数据安全合规
     1.角色权限管控,对不同使用/开发角色提供不同使用权限,根据报表、看板的权限等级,在同一个图表中限制不同的用户能够看到的数据也不一样(常用于报表各模块内容展示) 
     2.数据脱敏,通过脱敏防止数据泄漏 
     3.表/字段分级:对每个表及字段进行打标,保障每张表都有数据安全管控 
     4.数据权限使用 表/字段走审批流程 并设置数据使用申请时卡点负责人/组  
     5.其他 数据下载管控(一般来说最多下载1000行/次),离职数据风险管控等等
 
  存储资源治理
     1.设置统一表生命周期,并对当前表按照新标准裁剪,对未分区表重制定分区 
     2.长期未引用/被使用/临时的表下线 
     3.压缩格式/存储格式优化 
     4.根据业务对表存储重划分:对较大数据量表可以采取全量转增量操作、拉链表操作
 
  计算资源治理
     1.数据倾斜任务治理(后面我会细讲治理方法 这里跳过)
     2.消耗大core/内存任务治理 
     3.无效监控项、重复开发情况占用计算资源、数据价值低的模型占用计算资源及时下线 
     4.梳理数据链路并对任务调度治理 
     5.规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行 
     6.小文件治理 
     7.其他 例如hive spark2 切换spark3采用aqe特性  采用z-order+spark排序算法解决join时读取效果提升
 
  数据价值治理 
     1.烟囱数据模型及对应任务、模型粒度重复及时下线 
     2.ads指标下沉到dws  
     3.建立模型价值度指标,持续下线低价值模型 
     4.下线ads层对应业务不再使用的场景模型
 
  人力成本治理
     1.指导培训组员技术侧/业务侧能力能够独挡一面,并完善文档沉淀帮助后续新人培训开展 
     2.让熟悉不同数据域的组员安排在合理的数据域范围,同时做backup 
     3.建立相应需求开发流程机制,统计人员产出效率,方便针对性安排后续开发内容
     4.为当前需求及项目难度打分,帮助大家更好意识到项目能否落地、以及产出时间,同时衡量每人产出roi

你可能感兴趣的:(大数据,数据治理)