代码两边都没开源，git上面有三年前的OceanBase代码，感兴趣的可以研究一下，这篇文章主要就从架构上面分析OceanBase跟Oracle的区别，找到OB胜出最本质的原因，OB这边的资料主要来源是官方文档https://oceanbase.alipay.com/docs/oceanbase/OceanBase%E6%A6%82%E8%A7%88

1.分布式架构

Oracle使用最广的RAC集群是一种基于share disk的架构，多实例跑在不同的服务器上，共享数据存储。

oracle rac

OB的分布式架构，我觉得跟kafka的思想类似（OB的开发者更多的去类比google的F1等），是一种分区+副本的架构，每个分区有多个副本，副本分leader，follower，主副本所在的zone，被称为Primary Zone ，选主和日志同步采用的也是paxos算法，机制跟kafka如出一辙。

屏幕快照 2019-10-17 下午4.10.47.png

小结：在架构上，oracle rac是一种share disk的模式，这种集群可以支持的节点数是有限的。
OceanBase是一种share nothing的模式，是真正的分布式，分区数可以成千上万，每个分区可以三副本，可以五副本（对于普通单表，OB的一个分区就是一张表，而对于分区表，OB的一个分区对应表的一个分区）。在高可用方面，OceanBase在架构层面就天然比oracle要强，之前的云栖大会也演示过现场把某个节点的服务器网线剪断，服务在26秒之内恢复正常。Oracle集群如果存储服务挂掉，那么整个集群都将不可用。

2.存储

Oracle采用的是内存bufferCache+磁盘IO的模式。对数据的读写尽量在内存bufferCache中进行，会有进程负责将bufferCache中的冷数据和脏数据写入到磁盘中。

oracle存储

OB把数据分成基线数据和增量数据，增量数据放在内存中，叫MemTable，基线数据放在ssd盘中，叫SSTable，大部分dml操作都在内存中完成（官网文档不是很严谨，说所有DML操作都在内存中完成），性能会非常高。内存中的增量数据达到一定规模后，触发增量数据和基线数据的合并，即增量数据落盘。

ob存储

写操作完全是内存操作比较好理解，写完内存中的MemTable返回即可，后续再异步的跟基线数据合并落盘。
为了增加读操作的性能，会有Block Cache和Row Cache两层内存cache，对于不存在的行的空查，会有布隆过滤器过滤。但是读操作不能保证是完全的内存操作，比如基线和增量里面都有id=1的数据记录，基线数据中该记录为A，C，D，增量数据中该记录为B，C，F。按照上图，会有Block Cache和Row Cache，如果这两层Cache中包含id=1的数据记录，那么这个查询是内存操作可以理解，内存中一合并就好了。但是如果这两层Cache不包含id=1的数据记录呢，那么肯定是要对基线数据直接进行一次合并的，那就会有磁盘IO，因为Cache不可能包含全量的基线数据。之前看到文章说，单机的情况下，OceanBase性能是不如Oracle的。

3.总结

个人理解，OB之所以在性能测试上面能击败Oracle，最主要还是依赖分布式的架构，其他的点：比如存储，sql，分布式事务等都是为此服务的。而且单机的Oracle性能比OB要强，这点上，OB提升的空间还很大，如果将来OB的单机性能能够接近或者超过Oracle，那么OB的性能还将上升一个台阶。
绝大多数的互联网公司发展到一定规模，出于性能和成本的考虑，会有去Oracle的计划（淘宝也有这个过程，CBU的总裁七公就是淘宝的Oracle元老），替代者往往是Mysql。这么做的问题点就是Mysql在做分布式的架构时，需要中间件的辅助，同时需要运维人员比较强的能力，OceanBase最大的优势就是可以直接提供出一个商业化、分布式的关系型数据库，配合上云，那么对于去O的公司来说，OceanBase绝对会是个非常有竞争优势的产品，期待OB外部商业化的成功。

OceanBase性能测试成绩超过Oracle的原因

1.分布式架构

2.存储

3.总结

你可能感兴趣的:(OceanBase性能测试成绩超过Oracle的原因)