(5)衡量关系型数据库的4大要素

选择关系型数据库主要有4个方面的考虑:易用性、可靠性、性能、扩展性。易用性是指关系型数据库有SQL语言、JDBC/ODBC等API可以使用;可靠性指它有事务的ACID来保证数据一致性、有备份恢复、容灾等机制来保证数据的安全;性能方面有索引、数据分区、并行执行、查询优化等机制来保证;扩展性指在集群中有shared nothing/shared disk等方案来同步数据。

下面举一些例子来说明这4大要素。

易用性——SQL语言

SQL语言是一种描述性语言,特点是简单易用,只描述Do What,不描述How to do,How由系统自动完成。SQL是基于E-R模型和关系型代数理论、面向集合的操作方式。SQL完成的核心功能只用了9个动词来描述:

DDL:create、drop、alter

DML:select、insert、delete、update

DCL:grant、revoke

可靠性1——通过事务能力实现

事务是访问并可能更新数据库中各种数据项的一个程序执行单元,它有ACID四个特性:

Atomicity:事务所包含的操作要么全完成,要么全失败。

Consistency:在一致性数据库上执行事务后,数据库仍保持为一致性状态。

Isolation:没有结束的事务在结束前不允许将其暴露给其它事务。

Durability:当一个事务的结果提交后,系统保证该结果不会因以后的故障而丢失。

案例1

案例1中,

原子性保障:通过事务的原子性保证小张取消转账后,小王的账号仍然为100元。

一致性保障:小李的账号少300元,小王账号多300元。保证他们两个账号的总和不变。

隔离性保障:小张转账的200元对小李不可见,不然结果为600元。

持久性保障:服务器故障重启后,小李的转账仍然是成功的。

可靠性2——事务并发控制

事务的隔离性是通过并发算法实现的。

并发控制主要有2钟实现方法:

基于锁的并发控制  和  基于MVCC的并发控制。

这是数据库实现的难点。

案例2

案例2中,通过不同的方式,读取到的数值不一样。

基于锁并发:

t1时刻对账户进行加锁;

t2时刻小王查询时,被阻塞,处于等待状态;

t3时刻转账结束,释放锁;

t4时刻小王拿到锁,查询返回400。

基于MVCC的并发控制:

t1时刻转账时对账号设置标记(SCN),告诉别人正在修改;

t2时刻小王查询账户,看到标记,通过对比知道该行不可获取,于是去读取原值100,返回。

t3时刻小王转账结束,事务提交;

t4时刻小王再次查询,读到400,返回。

可以看到,MVCC的方式给用户的体验要更好些。MVCC机制也是目前关系型数据库解决并发问题普遍采用的一种方式。

性能——业界评价的Benchmark

TPC-C:OLTP领域的测试标准。通过模拟一个大型批发销售公司的订单处理流程来评估数据库的事务处理性能和性价比。

TPMC:每分钟处理订单事务的个数

$/TPMC:处理每一个订单事务所消耗的软硬件成本

TPC-H:OLAP领域的测试标准。通过模拟一个批发商的商业数据信息分析系统来评估数据库的分析能力和成本。

QphH:每小时处理的分析查询个数

$/QphH:处理每个分析查询所消耗的软硬件成本

扩展性

shared nothing架构适合VLDB等OLAP场景,可扩展性强。

优点:每个节点交互少,容易扩展。

缺点:如果要表扫描,必须访问多个节点。

Shared nothing 架构图

shared disk架构适合OLTP场景,可用性高,可扩展性受限。

优点:只要有一个节点可用,就可以访问所有数据

缺点:共享磁盘,以及节点间数据冲突处理限制了它的水平扩展能力

Shared disk 架构图

你可能感兴趣的:((5)衡量关系型数据库的4大要素)