一个简单的数据质量检查和汇总工具——Profiler

地址在这里:https://sourceforge.net/projects/dataquality/?source=typ_redirect

可以看看视频介绍,如果用的话直接下来压缩包,解压就可以用(可以需要安装jdk1.8;注意,MAC下使用.sh脚本启动)


可以方便的看到各列的MIN MAX,各值的统计结果,也可以执行SQL等。


一个简单的数据质量检查和汇总工具——Profiler_第1张图片

本来还想好好试试来着,但是实在是太慢了(实时查询,后台没有做啥优化),就算了,感兴趣的自己去试试把。

我使用的是152w行数据(大概两个月的统计结果)

 

你可能感兴趣的:(技术--大数据)