南大通用大规模分布式并行数据库集群系统,简称:GBase 8a MPP Cluster,它是在GBase 8a列存储数据库基础上开发的一款Shared Nothing架构的分布式并行数据库集群,具备高性能、高可用、高扩展等特性,可以为各种规模数据管理提供高性价比的通用计算平台,并广泛用于支撑各类数据仓库系统、BI系统和决策支持系统。
GBase 8a MPP Cluster具有联邦构架、大规模并行计算、海量数据压缩、高效存储结构、智能索引、虚拟集群及镜像、灵活的数据分布、完善的资源管理、在线快速扩展、高并发、高可用性、高安全性、易维护、高效加载等技术特征,具体如下:
1) 联邦架构:基于列存储的完全并行的MPP + Shared Nothing的联邦架构,采用多活Coordinator节点、运算节点的两级部署结构,避免了单点性能瓶颈和单点故障。Coordinator节点支持最多部署64个;单个虚拟集群的数据节点支持部署300个以上,包含多个虚拟集群的同一物理集群数据节点支持部署1000个以上;单节点可支持100TB裸数据数据量,且所有节点无共享;集群支持海量数据存储、查询,单个物理集群支持100PB以上的结构化数据;
2) 大规模并行计算:通过采用MPP技术的计划器,基于规则和基于代价的优化器,基于异步IO技术的调度器,支持高并发、高可靠、大规模的并行调度。
3) 海量数据压缩存储:可处理100PB以上的结构化数据,采用hash、random及replicate的分布策略进行数据分布式存储;同时采用先进的压缩算法,减少存储数据所需的空间,并相应地提高I/O性能;支持实例级、表级、字段级三级压缩;支持基于列存储的数据编码及高效压缩技术;压缩比可达1:20以上;
4) 高效存储结构:采用基于列存储、适合分析优化的存储结构;支持行列混合存储的存储结构,有效提高列存数据库在select * 场景下的查询性能;
5) 智能索引:采用粗粒度智能索引技术,索引建立膨胀率不超过百分之一。智能索引包含基于列的统计信息,在数据检索定位时可被直接使用,有效过滤数据,大幅降低数据库磁盘I/O,高性能、免维护的智能索引技术,大幅提高海量数据的查询性能;
6) 虚拟集群及镜像集群:通过虚拟集群技术,可以对集群中的运算节点进行分组,物理上进行资源的隔离;对命名空间进行逻辑隔离,支持多租户的使用方式。通过镜像技术,在不同的虚拟集群间对数据进行复制,提供更高的容灾能力,满足更灵活的系统容灾和读写负载分离等业务场景需求;
7) 完善的资源管理:通过资源池及资源使用计划的灵活配置,可以支持对CPU、内存、磁盘空间、磁盘IO、并发任务数等关键资源和指标进行管控;能够提供完善的多租户能力;
8) 在线高性能扩展:支持集群节点的在线扩容和缩容,效率更高,对业务的影响更小;在线扩展性能大于20TB/小时。
9) 高并发:读写不互斥,支持数据的边加载边查询,并发能力大于300;
10) 数据高可用:通过冗余机制来保证集群的高可用特性,互备的分片数据间可实现自动同步;数据通过副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。副本故障不影响集群的可用性;支持故障的自动恢复,无需人工干预;数据的副本机制支持1或2个数据副本,支持用户自定义的数据副本分布方式。
11) 主备集群高可用:支持集群间的高可用模式;支持主备集群数据全量、增量同步;支持主备集群同步回滚机制;支持主备同步错误恢复机制;支持同城灾备;
12) 安全性:提供完善的用户、角色、权限控制策略,提高数据库集群的安全性;提供详尽的审计日志输出功能,记录数据库中与数据库操作相关的所有日志,也可以通过图形化的监视工具实现审计管理;支持透明的数据加密:支持数据存储加密,支持数据库密码加密,支持数据加密压缩;支持相关加密函数,如AES_ENCRYPT()、ENCRYPT()、MD5()、SHA1()、SHA()等;
13) 易维护:提供图形化管理及监控工具,以简化管理员对数据库的管理工作;
14) 数据加载高效性:基于策略的数据加载模式,集群整体加载速度大于30TB/h;
15) 集群具有数据备份恢复能力,支持全量、增量备份/恢复;
16) Hadoop备份/恢复:支持与Hadoop之间进行数据备份/恢复,将库内数据备份到Hadoop中,或将Hadoop内的数据文件恢复到库内;Hadoop备份/恢复性能大于100TB/小时;
17) 标准化:支持SQL92 ANSI/ISO标准,支持ODBC、JDBC、ADO.NET等接口规范;支持C API,Python API,TCL API等接口;支持SQL 2003 OLAP函数;