DataCleaner Website: https://datacleaner.github.io/.
DataCleaner Git: https://github.com/datacleaner/DataCleaner.
DataCleaner 是一個數據質量分析應用程序和 DQ 解決方案的解決方案平台。它的核心是一個強大的數據分析引擎,它是可擴展的,從而增加了數據清理、轉換、豐富、重複數據刪除、匹配和合併。
不足的地方:并不是将服务部署后,通过port去访问。有些尴尬。但还是要给小花花。功能真强。
DataCleaner Download Website: https://datacleaner.github.io/downloads.
Document: https://datacleaner.github.io/documentation.
Data Quality 包括下面几个方面 :
- 数据的完整性
- 数据的正确性
- 数据冗余
- 数据标准化
看不太懂,看来不仅代码菜,英语也菜,看其他工具,data profiling就是对table column的校验,通过校验,会得到当前table的每一个栏位,比如int类型,最大值,最小值,或者Varchar类型,最大长度和最小长度,以及当前栏位的详情。当初建表时设定的范围。其它的再慢慢研究。
个人理解就是DataCleaner去连接目标DB或File的一个管道,就是DataStore。
在一秒钟内看到本质的人和花半辈子也看不清一件事本质的人,自然是不一样的命运。