库表清理-稳步推进

最近在清理数据库和表,

同事们表现的很激进, 名表看着奇怪的、与其他表相似的,或者数据看着与其他表相似的,基本上就直接清了。结果导致各种报错, 回过头来又要做各种修复工作。有时候还会遇到由此引发的紧急线上问题。

目前我们数据体系的确存在一些小问题,比如数据表在多个库存在,表命名不规范等,但是原本都是小问题,不致命,无伤大雅。而一旦表被删了或者数据被清理了,引发线上问题了, 那可就不是小问题了。当然了,也不是说库表清理不往前推进了, 我只是建议, 需要有方案、有谋略、有步骤的稳步推进,而非激进式的推进。

我的方案:(此处不涉及数仓设计思想, 只涉及到表清理的方法)

一、梳理库表使用方的表

1.库表使用方涉及到4个层面:

(1)爬虫(2)开发侧(此处包含了数仓数分)(3)产品侧(4)事业部自建的表

2.各方梳理自己用到的表,按照 [服务器].[库名].dbo.[表名]的形式整理到excel里面。

二、梳理sp用到的表

以同样的格式整理到excel里面

三、导出各服务器各库中的表进行比对处理

与一、二中的表比对,被使用到的表保留, 未被使用到的表批量重命名,统一加后缀[_废弃+日期] 。切不可直接删除未被使用的表。表冗余,无伤大雅,做减法简单, 但是删除后再恢复一模一样的数据就不那么简单了。这样重命名之后即使有问题,也可以重命名回来,数据不致丢失。

四、优化操作

关于删除:废弃的表在系统平稳运行一段时间后可以放心删除(当然了, 确认100%可以删的表, 立即删除没有任何问题, 然而不确定的哪怕只有0.1%的不确定,也不能立即删除。)

关于优化:表冗余等问题缺失需要解决, 在保证系统稳步运行的前提下, 逐步推进清理和优化工作。 

解密企业数据架构【经典案例】

你可能感兴趣的:(数据库,数据治理,大数据,数据仓库)