大数据融合数仓场景化解决方案总结笔记

1.数据仓库与融合数仓

 

数据库架构设计

 Shared - Disk

各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统

 Shared - Everything

一般是针对单个主机,完全透明共享CPU/Memory/IO,并行处理能力是最差的。

 Shared - Nothing

各个处理单元都有自己私有的CPU/Memory/硬盘等,不存在共享资源,各处理单元之间通过协议通信,并行处理和扩展能力更好。

 

数据处理机制

主要分为OLAP和OLTP

 

OLAP                 OLTP

用户 决策人员、高级管理人员 操作人员、低级管理人员

功能 分析决策             日常操作处理

DB设计 面向主题 面向应用

数据 历史的、聚集的、当前的、最新的、细节的、二维的、分立的

多维的、集成的、统一的

存取 读上百万条记录         读/写数十条记录

工作单位 复杂的查询 简单的事务

用户数    上百万个 上千个

DB大小    100GB~TB 100MB~GB

时间要求 时间的要求不严格 具有实时性

主要应用 数据仓库 数据库

联机事务处理OLTP(on-line transaction processing)

传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易

面向应用:支撑上层数据应用

 

联机分析处理OLAP(On-Line Analytical Processing)- GaussDB 200

从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业多维特性的数据称为信息数据,使分析人员、管理人员或执行人员能够从多种角度对信息数据进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术

面向主题:主题库的建立,人口库、法人库等

 

数据仓库

为满足各类零散分析的需求,通过数据分层和数据建模的方式,并以基于业务和应用的角度将数据进行模块化的存储

ODS:Operational Data Store,操作性数据。是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致。

EDW:Enterprise Data Warehouse,企业数据仓库,保持这所有的从ODS到来的数据,并长期保存,而且这些数据不会被修改。

DM:Data Mart,数据集市,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。最终面向应用。

 

融合数仓

随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,建立以数仓为核心,大数据平台为延伸的融合架构。

 

2.GaussDB 200 概述

基于MPP架构的面向海量数据分析的融合数仓。

特点;多 节点多,易扩展

快 :并行架构,行列混存

好:易运维,安全可靠

省;投资小,改造小

 

GaussDB 200 逻辑架构

在架构中:OM:运维管理模块:提供日常运维、配置管理的管理接口、工具。

CM:集群管理模块:管理和监控分布式系统中各个功能单元和物理资源的运行情况,确保系统稳定运行全局事务控制器。

CN:协调节点

负责接收来自应用的访问请求,并向客户端返回执行结果。

CN负责分解任务,并调度任务分片在个Data Node上并执行。

GTM:全局事务控制器:负责生成和维护全局事务ID、事务快照、时间戳等需要全局唯一的信息。

WLM:工作负载管理器:控制系统资源的分配,防止过量业务负载对系统的冲击而导致业务拥塞和系统崩溃。

DN:数据节点:负责存储业务数据、执行数据查询任务以及向CN返回执行结果。

Storage:服务器的本地存储资源:持久化存储数据。

 

GaussDB 200 高可用介绍

主要体现在:硬件级RAID存储。

交换机堆叠及网卡Bond。

软件级实例全方位HA。

CM:集群管理模块。 CM:由CM Agent、OM Monitor和主备CM Server组成

(CM Agent:负责监控所在主机上所有实例的运行状态并将状态上报给CM Server。同时只负责执行CM Server下发的仲裁指令。集群的每台主机上均有CM Agent进程。

OM Monitor:看护CM Agent的定时任务,其唯一的任务是在CM Agent停止的情况下将CM Agent重启。如果CM Agent重启不了,则整个主机不可用,需要人工干预。

CM Server:根据CM Agent上报的实例状态判定当前状态是否正常,是否需要修复,并下发指令给CM Agent执行。)

GTM:全局事务控制器。

(GTM:全局事务管理,负责生成和维护全局事务ID、事务快照、时间戳等全局唯一的信息。

GTM高可靠采用Active-Standby模式。主故障时,备自动升主继续提供服务,并有相关告警上报进行提示。)

CN:故障CN自动剔除。

(CN:负责接收来自应用的访问请求,并向客户端返回执行结果。负责分解任务,并调度任务分片在各DN上并行执行。

多CN Active-Active模式HA。

CN间角色对等,用户连接到任何一个CN上都可以得到一致的结果。

某CN故障时,负载均衡自动将连接负载到其他CN。故障CN上未完成的事务会全部回滚,只需重新执行失败作业。

由于DDL需要更新所有DN上的元数据,所以有CN故障时,整个集群将无法执行DDL,直至CN被修复。为不影响DDL的执行,GaussDB 200支持故障CN自动剔除)

DN:主、备、从备方案。

(DN:负责存储数据,执行数据查询任务以及向CN返回执行结果。

DN提供了主、备、从备的高可用方案。主、备、从备部署在不同的集群节点上。

主、备间保持实时同步,主故障时,备自动升主,继续提供服务,并有相关告警上报进行提示。

从备DN不存储数据,只存放备DN故障时主DN同步到从备的Xlog数据。

从备DN为数据的可靠性再加一道保险——备DN故障后,如果在恢复备DN期间,主也故障了,则在备修复后,备升主,并根据从备上的日志进行数据恢复,快速支撑业务运行。)

双AZ集群模式

(AZ:Availability Zone

存在主集群和灾备集群:

主集群提供正常服务,灾备集群只同步数据;

灾备集群不同步数据时,可以提供只读服务;

主集群不可用时,灾备集群提供正常服务。)

 

GaussDB 200 数据读写原理

数据分布 - 数据存储

1) 解析器从客户端应用获取输入的数据;

2) 解析器对数据进行解析后,将数据分发给各个处理单元进行处理;

3) 各个处理单元把接受的记录存储到它自己的逻辑磁盘中;

4) 每一个处理单元的逻辑磁盘可以是一个磁盘阵列中的多块物理磁盘。

 

数据分布 - Hash分布和Replication复制

GaussDB 数据库中一般根据分布键的哈希值来确定记录分布在哪个节点上,分布键一般在建表时指定,如果没有指定,系统根据一定规则选择默认字段作为分布键

复制(Repli

你可能感兴趣的:(笔记,大数据)