数据仓库(一):数据仓库概述

数据仓库概述

1.数据仓库需要解决的问题以及需要达成的目标

  • 跨系统实现数据共享,解决信息孤岛问题,提升数据质量

现在很多企业都有很多业务,每种类型的业务可能都有一个系统应用来支撑,但各个业务系统之间相互独立,比如A系统只有A类型业务的数据,B系统只有B类型业务的数据,A,B系统由于权限等各种问题不能互相访问彼此的数据,所以跨系统实现数据共享解决信息孤岛问题很重要

  • 构建企业单一视图,实现各种结构化半结构化非结构化数据的统一管理服务以及全面的业务模型挖掘
  • 构建完整统一的元数据管理体系
  • 构建数据治理体系,保证数据的一致性,解决信息的冗余,冲突和缺失等问题
  • 提供高效的、实时、准确的多维数据分析,报表统计、即时查询、多媒体分析、流分析,为企业运营分析提供全面支持
  • 提供简洁易用的数据挖掘和预测分析支撑模型

2.数据仓库发展历程

  • 传统数仓(离线计算??)

使用ETL工具实现数据的抽取转换清洗和装载工作,使用ODS(操作型数据存储)存储明细数据,使用数据集市和数据仓库技术实现面向主题的历史数据存储,使用多维分析进行前端展现,相比最开始的各个业务系统之间的各种报表查询系统来说,传统数仓有以下优点:

通过完善的ETL保证了操作型数据的准确性和一致性

通过多维分析展现工具给用户提供了全面的多维分析,报表统计和即席查询功能

缺点就是定期批量更新的数据导致时效性太差,并且传统数仓只对高层开放,并且还不会主动推送

  • 动态数仓(实时计算??)

数据仓库增量加载数据,用户可以实时访问数据仓库,采用时间驱动和主动推送的方式为业务系统提供分析能力

  • 数据中心

离线+实时计算的整合??

 

3.数据中心


关系型数据中心(以关系型数据库为基础构建存储层)

非关系型数据中心(以非结构化数据构建存储层)

混合型数据中心(结构化+非结构化数据):

混合型数据中心中,元数据管理和数据治理超级超级重要,只有解决信息冗余、冲突和缺失错误才能保证信息的一致性和完整性

4.数据仓库相关的专业名词解释


数据仓库相关的专业名词解释

你可能感兴趣的:(数据仓库,数据挖掘)