数据仓库、数据集市、数据湖、数据中台介绍

数据仓库

概念

数据仓库是一个功能性的概念,主要是面向主题、集成、相对稳定、能够反应历史变化的数据集合,支持管理中的决策制定,主要面向分析型数据处理

介绍

数据仓库是由多个数据源的有效集成,集成后按照主题进行重组,包含历史数据,一般情况下不会对数据仓库中的数据进行更改,多数据源集成主要是为了解决数据孤岛的问题,比如各个业务系统可能存在的地理位置、数据的存储格式、不通的商业平台(oracle、mysql等),编程语言(java、scala)等各方面,数据无法共享,数据仓库建设的主要工作是将他们所需要的格式提取出来,在进行必要的转换(统一数据格式)、然后进行清洗(去除异常值、无效或者不需要的数据等),然后装载到数据仓库;

应用场景

数据仓库主要是解决了企业中各个系统产生的基础数据,通过维度建模的方式来细分为多个主题(也就是数据集市)来统一存储和管理

数据集市

概念

数据集市是一个结构性的概念,可以理解为一个小型的数据仓库,相当于一瓶清洗过、过滤过、包装过的一瓶易于使用的水,数据集市包含的是单个主题,且关注度也是非全局的,只需关注其本身;

介绍

一般分为两种数据集市,第一种是独立的数据集市,有自己独立的数据源以及独立的ETL架构,另一种是非独立的数据集市,这种数据集市完全依赖于数据仓库中的数据,当用户或应用程序不需要/不允许用到整个数据 仓库的数据时,非独立的数据集市可以为用户或者应用程序提供一个数据仓库的子集;数据仓库是企业数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定主题。

使用场景

一般应用场景是在数据仓库之上,聚焦于业务主体合集,更加偏向于应对业务数据快速高效应用的需求,一般用于商业智能系统中探索式和交互式的数据分析应用。

数据湖

概念

数据湖是一种数据存储的概念,数据湖更相当于是数据的一种自然状态,数据从源端流向这个湖,用户、应用系统可以在其进行数据校验、取样或完全的使用数据

介绍

数据湖能够给企业带来多种能力,比如实现数据的集中式管理,在此之上,企业能够挖掘出很多之前不具备的能力,结合数据科学、机器学习等技术,帮助企业构建出更多优化后的运营模式也能够为企业提供其他能力,比如预测系统、推荐模型

使用场景

存储各个企业中各式各样原始数据的大型仓库,包括结构化、非结构化、音频、二进制图像、视频等,可以作为数据仓库、数据集市的数据来源

数据中台

概念

数据中台是一种逻辑概念,指的是通过企业内外部的多种异构数据源进行采集、治理、建模、分析、应用,是数据对内优化管理提高业务,对外可以数据合作释放价值,数据中台的建立,会形成对外提供数据服务的API接口,我企业和客户提供更好的数据服务接口,数据中台的整体架构是在云计算架构的模式建立,将数据资源、计算资源、存储资源同意云化,并且可以通过多租户技术进行资源权限管理,利用大数据技术,对数据进行统一的采集、计算、存储,将企业内部的数据进行统一化,形成统一的数据治理规范

介绍

数据中台为业务提供服务的主要方式是以API接口的方式对外提供服务,其包含了大数据、数据治理、数据仓库领域相关的内容。

使用场景

将数据服务化提供给业务系统,目的是将数据渗透到业务的各个环节,不限于决策分析

内容纯属个人理解,如果其中存在误解地方欢迎下方评论区指出,相互学习。

你可能感兴趣的:(大数据,数据仓库,数据湖,大数据,数据仓库,数据分析)