数据导入PowerQuery后的第一步要做什么?

当把数据导入PowerQuery之后,有很多选择可以拿来作为第一步,比如将首行不需要的数据删除,选择需要的列并删除其他的,给PowerQuery步骤命名等,这些操作作为第一步都对。

但是我个人认为,数据导入到PowerQuery之后,第一步应该仔细选择要保留的列的数据格式。原因在于:其他那些“第一步”操作不会导致后续操作出现严重错误;但是如果我们忽略了数据格式,将在后面某一步骤出现致命错误:“无法将xx类型转换成xxx类型”,从而导致PowerQuery操作中断。

举个简单例子:手机号码,我们一般从不会将它看成数字(尽管看起来它是由数字组成),二是将其看作为本文,我们从不想对手机号码作数学运算。但是PowerQuery会自作聪明地将手机号码看成整数;如果这一列全是手机号码,也就罢了;如果中间还包含不是手机号码的其他文本,对不起,当你后面对这列进行“分组后展开”,“合并后展开”这样的操作时,PowerQuery就会报错,提示:“无法将xx类型转换成xxx类型”,从而导致PowerQuery操作中断。

当然,为了减少内存使用量,当表格很大、列数又很多的时候,性能可能成为关键因素,这时首先要做的是清除那些不必要的列和行,只保留要处理的数据,然后再来检查并设定列格式。

你可能感兴趣的:(数据导入PowerQuery后的第一步要做什么?)