数据治理的流程

现在大家都很关注数据治理这个话题,本人在行业内也每天接触和实施的一些项目,下面把我的一些理解分享给大家。
数据源,一般都是OLTP业务系统生产累计下来的数据经过ETL工具进入到布式存储系统中(HDFS),然后通过现有的一些机制如MapReduce或者Spark*(基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Mapreduce的算法)*进行运算。这中间又涉及到了一些工具或者说叫引擎,如HIVE 底层支持多种不同的执行引擎(Hive on MapReduce、Hive on Tez、Hive on Spark),通过HIVE 清洗、处理、和计算原始数据。处理完的结果如果是面向海量数据随机查询的场景的就存到HBase中,如果是其他场景的可分存到不同类型的数据库中提供给相应的业务。特定数据应用从HBase中查询分析。其他业务则可回到对应数据库中增删改查。

你可能感兴趣的:(数据治理,大数据)