数据清洗小工具及技巧

在做data mining,很重要的一部是对数据进行清洗,由于数据量巨大,我是分段从数据库中取出数据存成文本格式,最后再将所有的文本合并成一个大的文件,

在文件合并的过程中,我用了一个小工具,

Txtunit.exe,短小精悍,

数据清洗小工具及技巧

合并完之后会有一些空白行的出现,我们需要将这些空白行清除掉,做法参见

emeditor删除空行 - HOHO网页设计 - 51CTO技术博客

主要是使用了一个匹配的正则 ^[ \t]*\n

你可能感兴趣的:(数据)