数据清洗的限度

最近遇到一个数据清洗的例子:我需要剔除N个管理员在人员信息表和学习记录表的记录,但是在给客户的报告中,需要告诉客户,有几个管理员账号(管理员账号可能会有增减变动,靠”adminxxx”这样的账号来识别)在里边。

这个问题有两种处理办法:

方法一是基于人员信息表建立两个PowerQuery查询,一个剔除管理员数据后用于最后的数据模型,一个仅仅用来提取管理员的账号数据。

但方法一的问题在于:仅仅为了统计有几个管理员,就新建了一个查询,重复引入了近一万条数据(虽然最后冗余数据被剔除)。

方法二是,不在数据清洗阶段剔除管理员数据,直接把管理员数据包含在数据模型中,靠DAX公式来处理。

方法二的好处是不用重复引入大量数据到模板中。但问题在于管理员数据我只用一次后就不用了,我在其他所有地方的计算都要考虑到剔除管理员数据,这导致公式撰写的麻烦。

我没有统计这两种方法在模板文件大小和计算时间上具体有多大的差别。不过我估计也很难有个标准的选择答案。当数据量不大时,方法一似乎更好。当数据是海量时,方法一好还是方法二好,就不太容易决定——重复引入两次数据到模板中耗费的时间多呢,还是DAX公式每次筛选剔除管理员数据耗费的时间多?

我自己一开始采用的方法一,后来又用了方法二。

你可能感兴趣的:(数据清洗的限度)