【大数据】数据仓库

1.前言

        小编最近接到一个任务是大数据方向的,业务是将mysql的数据同步到阿里云的MaxCompute(ODPS)数据仓库中。那么过程中会涉及到哪些知识呢?小编记录下了学习过程,欢迎大家指教。

1.1概念扫盲

ETL(Extract-Transform-Load)

      数据仓库技术,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

       企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。

ODPS(Open Data Processing Service)

        阿里云产品,现在叫MaxCompute,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能快速的解决用户海量数据计算问题,降低企业成本,保障数据安全。是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。

数据仓库(Data Warehouse)

        数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

        主要功能是将组织透过资讯系统之联机事物处理(OLTP)上的量资料,透过数据仓库理论,利用联机分析处理(OLAP),数据挖掘(Data Mining)手段作分析整理,帮助决策者从大量资料中分析出有价值的资料,帮助构建商业智能(BI)。

        特点:

       1、数据仓库是面向主题的,区别于操作性数据库的面向事务处理。

       2、集成性,数据仓库的数据来源于分散的操作性数据(比如我们的数据来源分成了2部分①mysql②OSS,阿里云开放存储服务),所以要消除数据源的不一致性。

       3、数据主要用于分析决策用,主要用于查询,数据往往会长期保存。通常包含历时数据,记录企业从过去某一时间点到当前各阶段的信息,用于分析和预测。

       实现方式:

        数据仓库是一个过程而不是一个项目。从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。

        从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。

        企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。

        体系结构:

        数据源——>存储与管理——>OLAP分析——>前端展示(报表等)

2.数据集成工具

     在迁移数据的过程中,将异构数据源集成需要一些工具,常用的工具分析,推荐  学习地址

     我们暂时选用DataX进行研究实现,接下来,我会继续总结关于DataX的知识。

      

小结:

      学无止境,新环境,新开始!

 

推荐一个公众号,免费领架构师学习资料,每周更新优质文章,能学到很多。

 

   

 

你可能感兴趣的:(【大数据】数据仓库)