引用百度百科的解释:数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库之父比尔·恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受--数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。
表现在:
功能 | 数据仓库 | 数据库 |
---|---|---|
数据范围 | 存储历史的、完整的、反应历史变化的数据 | 当前状态的数据 |
数据变化 | 可添加、无删除、无变更的、反应历史变化 | 支持频繁的增、删、改、查操作 |
应用场景 | 面向分析、支持战略决策 | 面向业务交易流程 |
设计理论 | 不遵守范式、适当冗余 | 遵照范式、避免冗余 |
处理量 | 非频繁、批量大、高吞吐、有延迟 | 频繁、批量小、高并发、低延迟 |
面向业务的数据库常称作OLTP系统,关注增删改事务操作,面向分析的数据仓库亦称为OLAP,关注查询分析。
引用维基百科的解释:数据中心,指用于安置计算机系统及相关部件的设施,例如电信和储存系统。一般它包含冗余和备用电源,冗余数据通信连接,环境控制(例如空调、灭火器)和各种安全设备。
数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为DataCenter。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
一般来讲,数据中心主要有几大部分构成:机房、供配电系统、制冷系统、网络设备、服务器设备、存储设备、环境控制设备等。
数据平台,一般叫做数据处理平台,不是一个专门被设计用来解决数据存储问题的,一个完整的数据平台包括一些关键架构设计:
除了提供基本的数据存储功能以外,还要提供 数据采集,数据处理,数据应用等相关功能!这是数据平台和数据库或者数据仓库不同的地方!
引用维基百科的解释:数据湖(英语:data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统[1]。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表,可视化,数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML,JSON),非结构化数据(电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。
数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据(关系数据库数据),半结构化数据(CSV、XML、JSON等),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频),从而形成一个容纳所有形式数据的集中式数据存储
数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库+Hadoop集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。
数据湖的就是原始数据保存区.虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS叫做数据仓库(广义),即存放所有数据的地方,而国外一般叫数据湖(datalake)
数据湖和数据仓库的区别:
特性 | 数据仓库 | 数据湖 |
---|---|---|
数据 | 来自业务系统,运营数据库和业务应用程序的关系数据 | 来自IOT设备,网站,移动应用,社交媒体,企业应用程序的非关系和关系数据 |
Schema | 设计在数据仓库实施之前(写模式) | 写入在读取数据分析时(读模式) |
性价比 | 更快查询结果会带来较高存储成本 | 更快查询结果只需要较低存储成本 |
数据质量 | 可作为重要事实依据的高度监管数据 | 任何可以或无法进行监管的数据(原始数据) |
用户 | 数据分析师 | 数据科学家,数据开发人员,业务分析师 |
分析 | 批处理报告,BI,可视化 | 机器学习,预测分析,数据发现和分析 |
所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,主要包括数据模型,数据服务,数据开发三个方面的,解决企业的生产效率和团队协作的问题。
核心思想:OneData OneService
核心价值:经验沉淀 场景驱动
核心优势:避免重复建设,统一服务接口 沉淀通用能力,前台减负
团队组成:业务团队 数据团队 算法团队 工程团队
文件 --> 数据库 --> 数据仓库 --> 数据平台 --> 数据中台
1991年,Bill Inmon 出版《Building the Data Warehouse》提出了更具体的数据仓库原则:
数据仓库是面向主题的,集成的,包含历史的,不可更新的,面向决策支持的,面向全企业的,最明细的数据存储,数据快照式的数据获取
Bill Inmon 凭借此书获得 “数据仓库之父” 的称号
Bill Inmon 主张自上而下的建设企业数据仓库,认为数据仓库是一个整体的商业智能系统的一部分。一家企业只有一个数据仓库,数据集市的信息来源出自数据仓库,在数据仓库中,信息存储符合第三范式,大致架构:
自上而下:分散异构的数据源 -> 数据仓库 -> 数据集市
Ralph Kimball出版《The Data Warehouse Toolkit》,其主张自下而上的建立数据仓库,推崇建立数据集市,认为数据仓库是企业内所有数据集市的集合,信息总是被存储在多维模型当中,其思路:
自上而下:分散异构的数据源->数据仓库->数据集市
两种思路和观点在实际的操作中都很难成功的完成项目交付,直至最终Bill Inmon提出了新的BI架构CIF(Corporation Information Factory),把数据集市包含了进来。
CIF的核心是将数仓架构划分为不同的层次以满足不同场景的需求,比如常见的ODS(OperationalData Store)、DW(Data Warehouse)、DM(Data Market)等,每层根据实际场景采用不同的建设方案,该思路也是目前数据仓库建设的架构指南,但自上而下还是自下而上的进行数据仓库建设,并未统一,并不是绝对的。
1、共同点
2、不同点
Inmon 理论:
Kimball 理论:
数据化运营
广告精准智能投放
用户画像,精准营销
数据挖掘、数据分析、人工智能、机器学习、无人驾驶
......
所以,在互联网领域,数仓模型的设计更关注灵活、快速响应和应对多变的市场环境,更加以快速解决业务、运营问题为导向,快速数据接入、快速业务接入,不存在一劳永逸。