1.数据仓库与融合数仓
数据库架构设计
Shared - Disk
各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统
Shared - Everything
一般是针对单个主机,完全透明共享CPU/Memory/IO,并行处理能力是最差的。
Shared - Nothing
各个处理单元都有自己私有的CPU/Memory/硬盘等,不存在共享资源,各处理单元之间通过协议通信,并行处理和扩展能力更好。
数据处理机制
主要分为OLAP和OLTP
OLAP OLTP
用户 决策人员、高级管理人员 操作人员、低级管理人员
功能 分析决策 日常操作处理
DB设计 面向主题 面向应用
数据 历史的、聚集的、当前的、最新的、细节的、二维的、分立的
多维的、集成的、统一的
存取 读上百万条记录 读/写数十条记录
工作单位 复杂的查询 简单的事务
用户数 上百万个 上千个
DB大小 100GB~TB 100MB~GB
时间要求 时间的要求不严格 具有实时性
主要应用 数据仓库 数据库
联机事务处理OLTP(on-line transaction processing)
传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易
面向应用:支撑上层数据应用
联机分析处理OLAP(On-Line Analytical Processing)- GaussDB 200
从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业多维特性的数据称为信息数据,使分析人员、管理人员或执行人员能够从多种角度对信息数据进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术
面向主题:主题库的建立,人口库、法人库等
数据仓库
为满足各类零散分析的需求,通过数据分层和数据建模的方式,并以基于业务和应用的角度将数据进行模块化的存储
ODS:Operational Data Store,操作性数据。是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致。
EDW:Enterprise Data Warehouse,企业数据仓库,保持这所有的从ODS到来的数据,并长期保存,而且这些数据不会被修改。
DM:Data Mart,数据集市,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。最终面向应用。
融合数仓
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,建立以数仓为核心,大数据平台为延伸的融合架构。
2.GaussDB 200 概述
基于MPP架构的面向海量数据分析的融合数仓。
特点;多 节点多,易扩展
快 :并行架构,行列混存
好:易运维,安全可靠
省;投资小,改造小
GaussDB 200 逻辑架构
在架构中:OM:运维管理模块:提供日常运维、配置管理的管理接口、工具。
CM:集群管理模块:管理和监控分布式系统中各个功能单元和物理资源的运行情况,确保系统稳定运行全局事务控制器。
CN:协调节点
负责接收来自应用的访问请求,并向客户端返回执行结果。
CN负责分解任务,并调度任务分片在个Data Node上并执行。
GTM:全局事务控制器:负责生成和维护全局事务ID、事务快照、时间戳等需要全局唯一的信息。
WLM:工作负载管理器:控制系统资源的分配,防止过量业务负载对系统的冲击而导致业务拥塞和系统崩溃。
DN:数据节点:负责存储业务数据、执行数据查询任务以及向CN返回执行结果。
Storage:服务器的本地存储资源:持久化存储数据。
GaussDB 200 高可用介绍
主要体现在:硬件级RAID存储。
交换机堆叠及网卡Bond。
软件级实例全方位HA。
CM:集群管理模块。 CM:由CM Agent、OM Monitor和主备CM Server组成
(CM Agent:负责监控所在主机上所有实例的运行状态并将状态上报给CM Server。同时只负责执行CM Server下发的仲裁指令。集群的每台主机上均有CM Agent进程。
OM Monitor:看护CM Agent的定时任务,其唯一的任务是在CM Agent停止的情况下将CM Agent重启。如果CM Agent重启不了,则整个主机不可用,需要人工干预。
CM Server:根据CM Agent上报的实例状态判定当前状态是否正常,是否需要修复,并下发指令给CM Agent执行。)
GTM:全局事务控制器。
(GTM:全局事务管理,负责生成和维护全局事务ID、事务快照、时间戳等全局唯一的信息。
GTM高可靠采用Active-Standby模式。主故障时,备自动升主继续提供服务,并有相关告警上报进行提示。)
CN:故障CN自动剔除。
(CN:负责接收来自应用的访问请求,并向客户端返回执行结果。负责分解任务,并调度任务分片在各DN上并行执行。
多CN Active-Active模式HA。
CN间角色对等,用户连接到任何一个CN上都可以得到一致的结果。
某CN故障时,负载均衡自动将连接负载到其他CN。故障CN上未完成的事务会全部回滚,只需重新执行失败作业。
由于DDL需要更新所有DN上的元数据,所以有CN故障时,整个集群将无法执行DDL,直至CN被修复。为不影响DDL的执行,GaussDB 200支持故障CN自动剔除)
DN:主、备、从备方案。
(DN:负责存储数据,执行数据查询任务以及向CN返回执行结果。
DN提供了主、备、从备的高可用方案。主、备、从备部署在不同的集群节点上。
主、备间保持实时同步,主故障时,备自动升主,继续提供服务,并有相关告警上报进行提示。
从备DN不存储数据,只存放备DN故障时主DN同步到从备的Xlog数据。
从备DN为数据的可靠性再加一道保险——备DN故障后,如果在恢复备DN期间,主也故障了,则在备修复后,备升主,并根据从备上的日志进行数据恢复,快速支撑业务运行。)
双AZ集群模式
(AZ:Availability Zone
存在主集群和灾备集群:
主集群提供正常服务,灾备集群只同步数据;
灾备集群不同步数据时,可以提供只读服务;
主集群不可用时,灾备集群提供正常服务。)
GaussDB 200 数据读写原理
数据分布 - 数据存储
1) 解析器从客户端应用获取输入的数据;
2) 解析器对数据进行解析后,将数据分发给各个处理单元进行处理;
3) 各个处理单元把接受的记录存储到它自己的逻辑磁盘中;
4) 每一个处理单元的逻辑磁盘可以是一个磁盘阵列中的多块物理磁盘。
数据分布 - Hash分布和Replication复制
GaussDB 数据库中一般根据分布键的哈希值来确定记录分布在哪个节点上,分布键一般在建表时指定,如果没有指定,系统根据一定规则选择默认字段作为分布键
复制(Repli