阿里云云栖社区

OceanBase如何获得TPC-C测试第1名？

阿里妹导读：TPC-C是TPC组织（国际事务性能委员会）制定的关于商品销售的订单创建和订单支付等的基准测试标准，是数据库联机交易处理系统的权威基准测试标准。

蚂蚁金服自研的分布式关系数据库OceanBase获得TPC-C测试第一名后，引起了大量关注，今天，我们邀请了OceanBase的核心研发人员对本次测试做专业的技术解读。

一、OceanBase如何做TPC-C测试

有机会挑战TPC-C测试相信是所有数据库内核开发人员的梦想，但TPC-C测试标准非常复杂。由于这是国产数据库同时也是分布式数据库第一次冲击这个榜单，为了完成这次挑战，OceanBase团队前后准备时间超过一年。

前期准备

TPC-C测试首先需要找到官方唯一认证的审计员来对测试进行审计监察，他们对这次OceanBase的审计也相当重视，全世界仅有的三个审计员这次就有两个参与到测试审计工作中。

测试系统

目前市面上基本找不到一个能够开箱即用的符合TPC-C标准的测试工具。以目前各个厂商PoC环境最常遇到的benchmarksql为例，可以说只是模拟TPC-C压力模型的压测工具，连最基本的数据导入都不合规，大量的字符串生成未保证全局随机，缺乏压测阶段最基本的think time、keying time这些基本配置导致极小的数据量就能跑出很高的tpmC，最关键的是它将测试模型大大简化为工具直连DB测试，完全没有遵守TPC-C测试标准规范。

在标准定义中，测试系统可以分为RTE（Remote Terminal Emulator）和SUT两部分，但实际上从角色上看SUT可以进一步拆分为两部分：WAS(web application server)和DB Server。

这其中DB Server是每个测试厂商的数据库服务；RTE扮演的角色是测试模型中的客户终端，事务的触发、RT的统计等都在这里完成；标准明确要求每一个用户terminal都必须保持一个长连接，显然在海量Warehouse时DB是无法承受这么多连接的，WAS就是RTE和DB之间桥梁，标准定义可以使用连接池，在保证对应用透明的情况下它可以做所有请求的管理。

这三个角色中，WAS和DB是必须商业化可购买且提供支付服务的，OceanBase这次是使用了OpenResty作为WAS供应商。而RTE则一般由各个参测厂商自行根据标准实现，但所有实现代码必须经过审计的严格审计，OceanBase这次完整的实现了一整套完全合规的RTE，并且支持在大规模测试系统中部署。要知道在实际的TPC-C测试流程中，不只是对DB端能力的考验，RTE端同样存在极大的资源消耗和压力。以这次6088w tpmC测试结果看，我们一共在64台64c128G的云服务器上运行了960个RTE客户端，来模拟总计47942400个用户terminal，最后还需要基于这么多RTE统计结果进行一致性和持久化审计验证。

虽然只是测试客户端，但RTE的中同样有大量的可能导致最后测试失败的小细节，比如大家可能注意不到的所有事务都因为用了web端模拟终端后需要增加的100毫秒rt，又比如为了模拟用户终端输出显示的100毫秒延时。

测试规划

TPC-C从来都不是一个简单的测试，它很科学并没有给出强制的软硬件配置，只是给出测试规范和各种审计检查限制标准，所有数据库厂商可以根据自己的特性充分调优来拿到一个最好的性能或性价比。但这同时也对所有参测厂商提出了一个巨大的难题，如何对已有的资源进行合理规划来保证顺利完成一次对TPC-C榜单的冲击。

硬件选型，这里不仅要对数据库服务器选型，还需要对RTE以及WAS服务器选型。这之前需要先期进行大量的测试和调优，来摸出在保证性价比的前提下每个角色服务器的资源配置是多少刚好。这次OceanBase测试最大的优势就是全部使用了云化资源，我们不需要再关注最底层机房、机柜、布线这些细节，只需要通过快速的规格调整来拿到我们需要的机型。
参数选择，如何选择合适的配置参数是一个非常令人头疼的问题。举个例子，一个最典型的问题就是我们最终要跑多少个Warehouse，每个数据库服务器上承载多少Warehouse。TPC-C标准为了尽可能模拟真实业务场景，通过每个事务限定不同的think time和keying time保证了一个warehouse的数据最多能够提供12.86tpmC值，因此数据库厂商想要拿到更高的成绩就必须装载更多的warehouse，但是另一方面单机的存储空间又有预计80%（经验值）需要预留给60天增量存储。在分布式数据库架构下，为了能让每个数据库服务器跑满又能充分利用本地存储空间，让每个服务器的CPU、内存、IO能力、存储空间的资源最大化利用，我们前后调整优化了近一个月时间。

性能压测

最受关注的性能压测部分在TPC-C标准中规定了以下三个状态：

Ramp-up，标准允许每个数据库进行一定时间的预热来达到稳定状态，但是ramp-up阶段的所有配置必须和最终报告配置保持一致。
Steady state，保证ACID及可串行化隔离级别前提下，数据库需要能够以最终报告tpmC值在稳定状态无任何人工干预前提下保持运行8小时以上，每隔半小时需要完成一次checkpoint。
Measurement Interval，标准规定了需要能够支持8小时稳定运行，但性能采集阶段只需要保设置2小时以上即可。这个阶段还需要保证累计tpmC波动不能超过2%，并且必须完成至少4个以上的checkpoint。

所以之前一般数据库进行性能压测一般是以下的流程，先进行一段时间的预热到达稳态，等待稳定运行一段时间并完成一个checkpoint后开始进入2小时的性能采集阶段。

而OceanBase这次是使用了TPC-C测试迄今以来最严苛的一个流程来完成这个性能测试的，我们首先使用了10分钟进行预热，然后在6088w tpmC稳态保持运行25分钟并完成一个检查点，再继续跑了完整的8小时性能压测采集阶段，总耗时超过8个半小时，中间性能最大波动不到0.5%，最终结果也让审计员异常兴奋。

整个性能测试前后，审计员还需要进行数据及事务随机分布检查，简单说来就是大量全表扫描和统计sql，最大的一条sql需要访问超过万亿行的order_line表结果，可以算是TPC-C里的“TPC-H测试”。现场审计第一次遇到这些sql时我们也大量的出现sql执行超时情况，但后续基于OceanBase2.2版本最新的并行执行框架我们还是很快搞定了这些大sql，所以要顺利完成TPC-C测试并不能只是一个偏科生，保持自身没有短板才是真正意义上的通用关系数据库，从这点上说Oracle仍是OceanBase学习的榜样。

ACID

A测试，通过提交和回滚payment事务来确认数据库对原子性支持，和I测试一样，OceanBase的A测试跑了两遍，分别应对分布式事务和本地事务。
C测试，标准里的C测试一共包含12个case，前四个是必须要完成验证的，每个case其实都可以认为是一个复杂的大sql，而对于分布式数据库来说重点是需要始终保证全局一致。
I测试，标准要求TPC-C模型里5个事务除了StockLevel事务都需要满足最高的可串行化隔离级别，并构造了9个case来验证隔离性。对于分布式数据库而言，这个要求并没有那么容易实现，所幸OceanBase在2.x版本中提供了全局时间戳的支持，所以的I测试都在审计员的特别要求下跑完了全本地和全分布式两种模式的两轮测试，这也应该是TPC-C测试中首次有数据库厂商需要做两轮I测试跑18个case的，也许在不久后TPC-C标准定义也会因为OceanBase的这次测试而带来针对分布式数据库的相关更新。
D测试，OceanBase在这个场景其实相对传统数据库是有较大天生优势的，OceanBase每个Warehouse数据有两份数据三份日志，通过paxos强同步，保证RPO=0的前提下只有秒级RTO。

面对D测试标准中最严格的一项-部分存储介质永久故障，OceanBase还使用了最严苛的测试场景，在使用超出标准要求的全量6000W tpmC压力下，我们强行销毁了一个云服务器节点，整体tpmC在两分钟内恢复到6000w并持续跑到测试时间结束，这些表现都是远远超过TPC-C规范要求的，相比较而言其它传统数据库基本面对有日志的存储介质故障D测试场景都是依赖磁盘RAID来恢复，OceanBase应该算是首个没有raid完全依赖数据库自身恢复机制完成全部D测试的数据库厂商了。

同时我们在D测试中是连续杀掉了两台服务器节点，首先杀掉一个数据节点，等待tpmC恢复且稳定5分钟后，再次杀掉了rootserver leader节点，tpmC仍然快速恢复。

二、TPC-C基准测试之SQL优化

对TPC-C有所了解人都知道，TPC-C是一个典型的OLTP (On-Line Transaction Processing) 场景测试，考察的是数据库在高并发压力场景下的事务处理能力，最终的性能指标以tpmC(transaction per minute，也即每分钟系统处理TPC-C模型中的new order事务的数量)和平均到每tpmC的系统成本作为衡量标准。在OLTP场景中，每条请求的响应时间都是极短的。因此，各个数据库厂商在进行TPC-C测试时，都会尽一切可能将每一个操作时间压缩到最短，不夸张的说，在TPC-C的测试中，一些关键操作的优化往往需要细化到CPU指令级。

在进入我们的主题前，我们先来谈谈TPC-C中的事务模型，主要分为五种事务，订单创建、订单支付、订单查询、订单发货以及库存查询，这五种事务按照一定的比例发生，测试最终衡量的是每分钟订单创建事务的执行个数。大家知道，每一个数据库的事务，其实就是由一定逻辑关系关联的若干条SQL语句组成，他们在一个事务中，要么全部成功，要么全部失败，这个在数据库中称为“原子性”，也就是ACID中的“A”。那么TPC-C中的一个事务的耗时大约是多久呢？看一下报告就很清楚了——只有十几个毫秒。考虑到一个事务由多条SQL构成，那么每一条SQL的平均耗时都不到1毫秒！

在C/S（client-server）模型中，一条SQL语句从发起到执行完成需要经历从客户端输入、网络传输、SQL优化、执行、结果返回到客户端这样一个流程。而具体每一条SQL的执行可能只是做一个字段的更新，所需要的执行时间是非常短暂的，从整个链路的角度来看，大量的时间会花费在与客户端的交互过程中，造成资源的浪费和耗时的增加。那么如何解决这个问题的呢？答案就是使用存储过程。

存储过程

所谓“存储过程”就是数据库为用户提供的一种面向过程的编程语言。基于这种语言，用户可以将应用程序的逻辑封装为一个可调用的过程（procedure）存放在数据库中并随时进行调用。通过这种方式，用户可以将本来需要与数据库进行多次交互才能完成的工作通过一次交互完成，省去了中间网络的传输和等待时间（参见图1）。假如一条事务的网络开销平均是30%，也就是说30%的CPU都花在了网络的收发和解析上。那么在6千万规模tpmC测试中节省下来30%的CPU资源换算成系统处理能力是惊人的。使用存储过程还可以带来事务响应时间的下降，导致数据库内核中事务锁的临界区缩短，间接的提升了系统CPU利用率，整个吞吐量也随之提高。存储过程在缩短应用端的等待耗时上同样有很大作用。

图1 传统的C/S模型与使用存储过程的执行方式对比

在TPC-C中，存储过程对于整个系统的执行效率提升是至关重要的。OceanBase 的2.2版本不仅全面支持了存储过程，而且对存储过程的执行效率做了大量极致的优化。

编译执行

存储过程作为一种面向过程的高级语言，需要转换成机器码才能够执行。这个过程一般可以分为“编译执行”和“解释执行”两种，一般来说，编译执行相比解释执行有代码优化充分、执行效率高等特点。OceanBase利用近两年逐渐成熟的LLVM编译器框架实现了一个支持存储过程的编译器，通过动态编译（Just-in-Time Compilation）的方式将存储过程翻译成高效的二进制可执行代码，在执行效率上获得了数量级的提升。同时，过程中LLVM框架将存储过程转换为与机器无关的中间代码，使得存储过程也自然而然地获得了跨平台的编译执行能力，LLVM内置的优化过程确保我们在各种不同的硬件平台上都可以获得正确、高效的可执行代码。

Array Binding

另外一个在TPC-C测试中发挥了重要作用的功能就是对DML语句进行批量处理的能力，在Oracle中该功能也称为“Array Binding”。一条SQL在数据库中的执行过程大致上可以分为“计划生成”和“执行”两个阶段。尽管我们对SQL的执行计划做了高速缓存，但找到一个合适的执行计划在整个执行过程中仍然是比较耗时的一个部分。那有没有办法省去这个时间呢？当一组SQL的执行计划完全一样而只有执行参数不同时，在存储过程中我们可以通过特定的语法将他们的执行做成一个批量处理的过程，此时“计划生成”只需要做一次即可，这就是所谓的“Array Binding”。

在Array Binding中，数据库会首先找到需要使用的计划，然后执行该计划，并在每次执行完毕后，重新执行参数绑定（binding）的过程。打个比方，这就像是在一个C语言的for循环中，反复赋值而不是重新定义一个数据结构。Array Binding的使用受用户控制，需要在存储过程中使用FORALL关键字来触发这一功能，在TPC-C的测试过程中，我们多次使用了Array Binding来提升系统的处理能力，效果非常明显。

Prepared Statement与执行计划缓存

Prepared Statement是一种二进制的请求交互协议，可以大大降低系统的交互成本。OceanBase不仅支持用户程序与数据库间使用Prepared Statement, 也支持在存储过程引擎调用SQL引擎执行时使用这种交互方式。存储过程在对SQL进行一次Prepare操作并获取唯一id后, 后续的每次执行仅需要传入该id和对应的参数,系统可以通过高速缓存找到对应的存储过程或SQL计划开始执行。该过程相比使用SQL文本的交互方式，省去了大量请求文本解析的CPU开销。

OceanBase内部实现了高速缓存来缓存存储过程的可执行代码及SQL执行计划,不同参数的存储过程和SQL可以通过这一高速缓存快速获取需要的执行对象, 耗时一般在几十微秒以内, 有效避免了重新编译带来的毫秒级的延迟和CPU消耗。

可更新视图

在OLTP场景中，通过减少应用与数据库的交互次数来实现性能提升的例子很多，可更新视图就是其中之一。我们常见的数据库视图通常是只读的，通过定义视图，用户可以定义自己感兴趣的数据以及其获取接口，但视图同时也可以作为更新操作的入口，比如在TPC-C的new order创建场景中，应用需要得到商品信息，更新库存并得到更新后的值。一般可以通过两条SQL实现这一过程：

select i_price,i_name, i_data from item where i_id = ?;
 
    UPDATE stock
      SET s_order_cnt = s_order_cnt + 1,
          s_ytd = s_ytd + ?,
          s_remote_cnt = s_remote_cnt + ?,
          s_quantity = (CASE WHEN s_quantity< ? + 10 THEN s_quantity + 91 ELSE s_quantity END) - ?
      WHERE s_i_id = ?
          AND s_w_id = ?
      RETURNING s_quantity, s_dist_01,
          CASE WHEN i_data NOT LIKE'%ORIGINAL%' THEN 'G' ELSE (CASE WHEN s_data NOT LIKE '%ORIGINAL%' THEN 'G'ELSE 'B' END) END
      BULK COLLECT INTO ...;

但通过建立一个可更新视图：

  CREATE VIEW stock_item AS
      SELECT i_price, i_name, i_data, s_i_id,s_w_id, s_order_cnt, s_ytd, s_remote_cnt, s_quantity, s_data, s_dist_01
      FROM stock s, item i WHERE s.s_i_id =i.i_id;

我们就可以通过一条语句更新库存并得到商品和库存信息：

UPDATE stock_item
      SET s_order_cnt = s_order_cnt + 1,
          s_ytd = s_ytd + ?,
          s_remote_cnt = s_remote_cnt + ?,
          s_quantity = (CASE WHEN s_quantity< ? + 10 THEN s_quantity + 91 ELSE s_quantity END) - ?
      WHERE s_i_id = ?
          AND s_w_id = ?
      RETURNING i_price, i_name, s_quantity,s_dist_01,
          CASE WHEN i_data NOT LIKE'%ORIGINAL%' THEN 'G' ELSE (CASE WHEN s_data NOT LIKE '%ORIGINAL%' THEN 'G'ELSE 'B' END) END
      BULK COLLECT INTO ...;

这样就省去了一条语句的交互，并且更新逻辑更加直观。可更新视图允许用户可以像普通表一样操作视图，但不是所有视图都可以定义为可更新视图。比如带distinct, group by的视图，具体更新哪些行语义是不明确的，因此不能允许更新。具体到上面的stock_item两表join的视图，需要满足所更新表的unique key在join之后保持unique(key-preserved table)，即item.i_id必须是唯一的这个前提。

需要强调，TPC-C规范禁止使用物化视图，而可更新视图并没有改变底层数据表格的存储形式，是符合规范的。

因为TPC-C的设计原则是尽可能的“真实”反应一个OLTP系统的运行场景，我们所做的很多优化都具有广泛的适用性。例如，对于一个高并发的OLTP系统来说，大部分的SQL请求的耗时是非常短的，采用纯粹的C/S交互模型的后果必然使系统的时间浪费在应用与数据库的频繁交互中，而使用存储过程可以大大缓解这种交互的耗时，并且增强系统对于网络抖动的免疫力，这种核心能力对于一个分布式OLTP数据库是不可或缺的。

在这次的TPC-C测试中，我们采用了OceanBase 2.0版本开始支持的Oracle兼容模式，存储过程和SQL全部使用了兼容Oracle的数据类型和语法，这样做也是为了在追求极致优化的同时，确保产品迭代可以沿着通用和正规的方向发展。

三、TPC-C基准测试之数据库事务引擎的挑战

OceanBase这次TPC-C测试与榜单上Oracle和DB2等其他数据库在硬件使用上有非常大的不同，OceanBase的数据库服务器使用的是204+3台型号是ecs.i2.16xlarge阿里云ECS服务器，其中204台作为data node，还有3台作为root node，每位读者都可以在阿里云网站上轻松按需购买。如果读者翻看Oracle和DB2的TPC-C测试报告会发现，这些数据库都会使用专用的存储设备，例如前最高记录保持者Oracle在2010年的测试，使用了97台COMSTAR专用的存储设备，其中28台用来存储数据库的重做日志（Redo Log）。

硬件的差异给软件架构提出了完全不同的挑战，专用的存储设备其内部通过硬件冗余实现了设备自身的可靠保证，数据库软件在使用这样的存储设备时就天然的预设了数据不会丢失。但是，这种方式带来了成本的极大消耗，专用的存储设备的价格都是特别昂贵的。

OceanBase使用通用的ECS服务器提供数据库服务，并且只使用ECS机器自带的本地硬盘做数据存储，这是最通用的硬件条件。但是这种方式对软件架构提出了很大的挑战，因为单个ECS服务器的不如专用的存储设备可靠性高。这也对OceanBase的事务引擎提出了很大的挑战，OceanBase是在普通的ECS服务器上就可以实现ACID特性。

TPC-C测试是对事务ACID特性有完整并且严格的要求。下面分别介绍OceanBase针对事务ACID的特性的解决方案。

Paxos日志同步保证持久性（Durability）

OceanBase数据库的事务持久性（Durability）保证是依赖事务重做日志（Redo Log）的持久性来达成的。所有的 Redo Log 会实时强同步到另外两台数据库服务机器上，包含产生 Redo Log 的机器在内，总共会有三台机器在硬盘中持久化 Redo Log。

OceanBase 采用了 Paxos 一致性同步协议来协调这三台机器上 Redo Log 的持久化，Paxos协议采用超过半数（也叫“多数派”）成功即算成功的算法（三个副本时，两个成功即超过半数），当其中两台机器完成持久化后，事务即可完成提交，剩下的一台机器的 Redo Log 在通常情况下，也是立即就持久化完成了。但如果这台机器碰巧出现异常，也不会影响事务的提交，系统会在其恢复后自动补齐所缺失的 Redo Log。如果机器永久故障，系统会将故障机器所应负责同步的数据分散给集群内的其他机器，这些机器会自动补齐所缺失内容，并跟上最新的 Redo Log 写入。

使用Paxos一致性协议的最大优势是数据持久化和数据库服务可用性的完美平衡。当使用三个副本时，任何时候坏掉一个副本时至少还有另一个副本有数据，并且写入还可以持续，因为还剩下两个副本，后续的写入也不受影响。

所以，OceanBase 在保证了事务持久性的同时，也大大提升了数据库的连续服务能力。TPC组织的审计员在现场审计OceanBase持久性能力时，在客户端持续产生压力的情况下，从OceanBase集群中随意挑选了一台机器做了强制断电操作，发现数据库的数据不仅没丢，数据库不需要任何人工干预还能持续的提供服务，审计员们都很吃惊，并且对OceanBase大为赞赏。

依靠自动两阶段提交解决原子性（Atomicity）

TPC-C测试模型的五种事务中的“订单创建”和“订单支付”两个事务分别会对很多数据做修改，是其中相对复杂的两个事务。TPC-C标准对事务的原子性（Atomicity）是强制性的要求，要求一个事务内部对仓库、订单、用户等表格的修改一定要原子的生效，不允许出现只有一半成功的情况。

OceanBase的数据是按照仓库ID（Warehouse_ID）拆分到多台机器上的，如果所有的事务都是发生在同一个仓库内部，那么无论数据量有多大，事务的修改都只会涉及一台机器的数据，也就是在一台机器上完成事务提交，这是一种完美的线形扩展的场景。但是这不符合实际的业务场景，大多数的实际业务都会有很多不同维度之间的数据交互。TPC-C测试标准也是对此认真考虑，所以对于事务操作数据的随机性规则提出了要求，最终要保证产生10%的“订单创建”事务和15%的“订单支付”事务要操作两个及以上的仓库。在OceanBase数据库内，这样就产生了跨机器的事务操作，而这必须使用两阶段提交协议来保证原子性。

OceanBase会自动跟踪一个事务内所有SQL语句操作的数据，根据实际数据修改的位置自动确定两阶段提交的参与者，事务开始提交时，OceanBase自动选择第一个参与者作为协调者，协调者会给所有参与者发送Prepare消息，每个参与者都需要写各自的Redo Log和Prepare Log（也意味着每个参与者各自做自己的Paxos同步），等协调者确认所有参与者的Redo Log和Prepare Log完成后，然后再给所有参与者发送Commit消息，再等所有参与者的Commit工作完成。整个协议是在事务提交过程中自动完成，对用户完全透明。OceanBase为每一个两阶段提交事务自动选择一个协调者，整个系统任何机器都可以分担协调者工作，所以OceanBase可以将事务处理能力进行线形扩展。

多版本并发控制保证事务的隔离性（Isolation）

TPC-C标准里要求“订单创建”、“订单支付”、“订单配送”、“订单支付”事务之间都是串行化隔离级别（Serializable）。OceanBase采用的方法是基于多版本的并发控制机制。事务提交时会申请一个事务的提交时间戳，事务内的修改以新的版本写入存储引擎，并且保证之前版本的数据不受影响。事务开始时会获取一个读取时间戳，整个事务内数据的读取操作只会看到基于读取时间戳的已提交数据。所以，事务的读取不会遇到脏数据、不可重复读数据以及幻读数据。同时，事务的修改会在修改的数据行上持有行锁，保证两个并发的修改相同行的事务会互斥。

OceanBase的全局时间戳生成器也是由多副本组成，可以独立部署在三台机器上，也可以像这次TPC-C评测中一样部署在root node机器上，与root node共享资源。全局时间戳的三副本是一种极高可用的架构，任何一次时间戳的获取操作都至少在三台机器上的两台获得了确认，所以任意一台机器出现故障，获取时间戳的操作不会有一点影响。

按照TPC-C标准，OceanBase准备了9种不同的场景测试有读-读、读-写冲突时事务的隔离性，最终都完美通过了审计员的审计。

一致性保证（Consistency）

在有了上述的事务能力后，OceanBase可以完美的保证各种数据的一致性的约束。TPC-C标准里提出了12种不同的一致性测试场景在各种测试运行前后对数据库内的数据进行一致性校验。因为OceanBase此次测试数据规模庞大，一致性校验的SQL需要核对大量的数据，所以一致性校验的挑战在于校验的SQL本身运行的效率。基于OceanBase的并行查询能力，发挥整个集群所有的计算资源，校验SQL的运行时间均缩短了几个数量级，很好的完成一致性功能的审计工作。

复制表

TPC-C测试模型中有一张商品（ITEM）表，这张表的内容是测试所模拟的销售公司所有售卖的商品信息，包含了商品的名字、价格等信息。“订单创建”事务执行中需要请求这张表内的数据来确定订单的价格信息，如果商品表的数据只存放在一台机器上，那么所有机器上发生的“订单创建”事务都会请求包含商品表的机器，这台机器就会成为瓶颈。OceanBase支持复制表功能，将商品表设置为复制表后，商品表的数据会自动复制到集群中的每一台机器上。

TPC-C标准不限制数据的副本数，但是不管数据的组织形式，标准里要求事务的ACID一定要保证。OceanBase使用特殊的广播协议保证复制表的所有副本的ACID特性，当复制表发生修改时，所有的副本会同时修改。并且，当有机器出现故障时，复制表的逻辑会自动剔除无效的副本，保证数据修改过程中不会因为机器故障出现无谓的等待。复制表在很多业务场景中都有使用，例如很多业务中存储关键信息的字典表，还有金融业务中存储汇率信息的表。

四、TPC-C基准测试之存储优化

TPC-C规范要求被测数据库的性能（tpmC）与数据量成正比。TPC-C的基本数据单元是仓库（warehouse），每个仓库的数据量通常在70MB左右（与具体实现有关）。TPC-C规定每个仓库所获得的tpmC上限是12.86（假设数据库响应时间为0）。

假设某系统获得150万tpmC，大约对应12万个仓库，按照70MB/仓库计算，数据量约为8.4TB。某些厂商采用修改过的不符合审计要求的TPC-C测试，不限制单个warehouse的tpmC上限，测试几百到几千个warehouse全部装载到内存的性能，这是没有意义的，也不可能通过审计。在真实的TPC-C测试中，存储的消耗占了很大一部分。OceanBase作为第一款基于shared nothing架构登上TPC-C榜首的数据库，同时也作为第一款使用LSM Tree存储引擎架构登上TPC-C榜首的数据库，在存储架构上有如下关键点：

为了保证可靠性，OceanBase存储了两个数据副本和三个日志副本，而传统的集中式数据库测试TPC-C只存储一份数据；
由于OceanBase存储两个数据副本，再加上OceanBase TPC-C测试采用了和生产系统完全一样的阿里云服务器i2机型，SSD硬盘的存储容量成为瓶颈。OceanBase采用在线压缩的方式缓解这个问题，进一步增加了CPU使用；相应地，集中式数据库测试存储一份数据，不需要打开压缩；
OceanBase LSM引擎定期需要在后台做compaction操作，而TPC-C要求测试至少运行8小时且2小时之内抖动小于2%，因此，OceanBase存储需要解决LSM引擎后台操作导致的抖动问题；

两份数据

为了保证可靠性和不丢数据（RPO=0），有两种不同的方案：一种方案是在硬件层面容错，另一种方案是在软件层面容错。OceanBase选择在软件层面容错，优势是硬件成本更低，带来的问题是需要冗余存储多个副本的数据。OceanBase使用Paxos协议保证在单机故障下数据的强一致。在Paxos协议中，一份数据需要被同步到多数派（超过一半），才被认为是写入成功，所以一般来说副本个数总是奇数，出于成本考虑最常见的部署规格是三副本。

三副本带来的首要问题就是存储成本的上升，之前商业数据库的TPC-C测试大多基于磁盘阵列，而TPC-C规范中明确对磁盘阵列不做容灾要求，使用相对于传统数据库三倍的存储空间进行TPC-C测试显然难以接受。

我们注意到这样一个事实，通过Paxos协议同步的只是日志，日志需要写三份，但数据不是，数据只需要有两份就可以完成单机故障的容灾了，当一份数据由于服务器宕机不可用时，另一份数据只要通过日志把数据补齐，就可以继续对外提供访问。

和数据存储相比，日志的存储量比较小。我们将数据与日志分开，定义了三种不同的副本类型：F副本既包含数据又同步日志，并对外提供读写服务；D副本既包含数据又同步日志，但对外不提供读写服务；L副本只同步日志，不存储数据。当F副本出现故障时，D副本可以转换为F副本，补齐数据后对外提供服务。在TPC-C测试中我们使用FDL模式进行部署（一个F副本，一个D副本，一个L副本），使用了两倍数据副本的存储空间。无论是D副本还是L副本，都需要回放日志，D副本还需要同步数据，这些都是都会消耗网络和CPU。

在线压缩

在sharednothing架构下，OceanBase至少需要存储两份数据才可以满足容灾的要求，这意味着OceanBase需要比传统数据库多耗费一倍的存储空间。

为了缓解这个问题，OceanBaseTPC-C测试选择对数据进行在线压缩，Oracle数据库中一个warehouse的存储容量接近70MB，而OceanBase压缩后存储容量只有50MB左右，大幅降低了存储空间。TPC-C规范要求磁盘空间能够满足60天数据量的存储，对于OceanBase，由于需要保存两份数据，虽然可靠性更好，但需要保存相当于120天的数据量，这些存储成本都要计入总体价格。

OceanBase使用了204台ECS i2云服务器存储数据，服务器规格和线上真实业务应用保持一致。每台服务器的日志盘1TB，数据盘接近13TB。计算两份压缩后的数据60天的存储空间之后，服务器的数据盘基本没有太多余量,从服务器的资源成本消耗来看，已经达到了比较好的平衡。如果OceanBase的单机性能tpmC进一步提升，磁盘容量将成为瓶颈。OceanBase LSM引擎是append-only的，它的优势是没有随机修改，能够在线压缩。无论是TPC-C测试，还是最核心的OLTP生产系统（例如支付宝交易支付），OceanBase都会打开在线压缩，通过CPU换存储空间。

存储性能平滑

TPC-C测试很大的挑战在于在整个压测过程中性能曲线要求是绝对平滑的，曲线上的波动幅度不能超过2%，这对于传统数据库来说都是一件困难的事情，因为这要求对于所有后台任务的精细控制，不能由于某个后台任务的资源过度使用导致前台请求的阻塞积压。而对于OceanBase而言，事情变得更为困难，因为OceanBase的存储引擎是基于LSM Tree的，在LSM Tree要定期执行compaction操作。Compaction是个非常重的后台操作，会占用大量CPU和磁盘IO资源，这对前台的用户查询和写入天然就会造成影响。我们做了一些优化，来平滑后台任务对性能的影响，从最终的测试结果来看，性能曲线在整个8小时压测过程中的抖动小于0.5%。

| 分层转储

在LSMTree中，数据首先被写入内存中的MemTable，在一定时候为了释放内存，MemTable中的数据需要与磁盘中的SSTable进行合并，这个过程被称为compaction。在很多基于LSM Tree的存储系统中，为了解决写入的性能问题，通常会将SSTable分为多层，当一层的SSTable个数或者大小达到某个阈值时，合并入下一层SSTable。多层SSTable解决了写入的问题，但是SSTable的个数过多，会极大拖慢查询的性能。OceanBase同样借鉴了分层的思路，但同时使用了更加灵活的compaction策略，确保SSTable总数不会太多，从而在读取和写入性能之间做了更好的平衡。

| 资源隔离

Compaction等后台任务需要消耗大量的服务器资源，为了减少后台任务对用户查询和写入的影响，我们在CPU、内存、磁盘IO和网络IO四个方面对前后台任务做了资源隔离。在CPU方面，我们将后台任务和用户请求分为不同的线程池，并按照CPU亲和性做了隔离。在内存方面，对前后台请求做了不同的内存管理。在磁盘IO方面，我们控制后台任务IO请求的IOPS，使用deadline算法进行流控。在网络IO方面，我们将后台任务RPC和用户请求RPC分为不同队列，并对后台任务RPC的带宽使用进行流控。
存储CPU占用

TPC-C基准测试主要考察整体性能tpmC，很多人也会关注单核的tpmC。然而，这个指标只有在相同架构下才有意义。对于存储模块的CPU占用，有如下三点：

对于集中式架构，除了数据库使用CPU之外，专用存储设备也需要使用CPU。例如，第二名Oracle 3000多万tpmC的测试中，数据库使用了108颗T3SPARC处理器，共有1728个物理核心和13824个执行线程，同时存储设备使用的是Intel服务器作为机头，总共使用了97台服务器，194颗Intel X5670 CPU，2328个物理核心。
集中式数据库使用高可靠硬件，只需要存储一个副本，而OceanBase通过软件层面容错，虽然硬件成本更低但需要两个数据副本和三个日志副本，维护多个副本需要耗费大量CPU；
OceanBase在TPC-C测试和生产系统中都打开了在线压缩，进一步增加了CPU使用；

因此，简单地对比OceanBase和Oracle的CPU核是不科学的，还需要算上共享存储设备的CPU核，以及OceanBase存储多副本和在线压缩带来的CPU开销。TPC-C推荐的方案是不关注具体的软件架构和硬件架构，关注硬件总体成本。在OceanBase的测试中，硬件成本只占整体成本的18%左右，只考虑硬件的性价比大幅优于集中式数据库。

后续发展

OceanBase的优势在于采用分布式架构，硬件成本更低，可用性更好且能够做到线性扩展，但是，OceanBase单机的性能离Oracle、DB2还有不小的差距，后续需要重点优化单机存储性能。另外，OceanBase的定位是在同一套引擎同时支持OLTP业务和OLAP业务，而目前OceanBase的OLAP处理能力还不如Oracle，后续需要加强存储模块对大查询的处理能力，支持将OLAP算子下压到存储层甚至在压缩后的数据上直接做OLAP计算。

原文链接
本文为云栖社区原创内容，未经允许不得转载。

你可能感兴趣的:(Oceanbase,分布式数据库)

Rust之从零开始构建分布式事务数据库莲华君 rust 分布式数据库
目录第一部分：Rust基础与数据库基础Rust语言基础Rust的特点与优势Rust的内存安全与并发模型Rust工具链与开发环境搭建数据库基本原理关系型数据库与非关系型数据库数据库的事务管理原理ACID与BASE理论分布式系统与数据库的挑战第二部分：分布式数据库核心架构分布式数据库的设计原则CAP理论与BASE理论数据分片与复制数据一致性与可用性的权衡数据持久化与恢复策略分布式事务的基础事务的ACI
系统架构设计师论文分享-论分布式数据库技术及应用码农卿哥系统架构分布式数据库
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该项目为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的数字化和智能化水平，我在该项目中担任系统架构设计师一职，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了分布式数据技术及其应用。在该项目中，会接入众多纱线工厂的全部设备的生产数据，数据量巨大，如果采用传统的单体关系型数据库，难以支撑起这庞大的数据。基于
GaussDB 权限管理：从 RBAC 到精细化控制的技术实践如清风一般 gaussdb
GaussDB权限管理：从RBAC到精细化控制的技术实践一、引言在分布式数据库环境中，权限管理是保障数据安全和合规性的核心环节。GaussDB（开源版及云服务版）提供了一套完整的权限管理体系，支持基于角色的访问控制（RBAC）、细粒度权限分配和动态审计等功能。本文将深入解析GaussDB的权限管理模型、操作方法及实战技巧。二、GaussDB权限管理模型核心对象与层级GaussDB的权限管理围绕以下
SQLShift 重磅更新：支持 SQL Server 存储过程转换至 GaussDB！
SQLShift作为一款多元异构数据库的SQL方言转换工具，在过去两个月，陆续支持了Oracle存储过程➝OceanBase/PostgreSQL的语法转换，本期让我们一起看看又有哪些新能力吧！https://www.bilibili.com/video/BV1253jzTE8t/?aid=114792748552...新特性速览✔️SQLServer存储过程➝GaussDB函数重构：支持T-SQ
KingbaseES 到 Apache Doris 实时同步实践｜国产数据库数据入仓解决方案数据库
国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。本系列文章聚焦OceanBase、GaussDB、TDSQL、达梦等主流信创数据库，逐一拆解其日志机制与同步难点，结合TapData的实践经验，系统讲解从CDC捕获到实时入仓（Doris、StarRocks、ClickHouse等）的完整链路构建方案，为工程师提供切实可行的替代路径与最佳实践。本篇任务：KingbaseES→ApacheDo
PostgreSQL-XL之序列（Sequence）行星008 数据库 postgresql 数据库
目录序列的定义和作用PostgreSQL-XL中序列的特殊性序列的使用方法1.创建序列2.在分布式表中使用序列3.手动操作序列值4.查看序列与表的关联关系关键注意事项典型使用场景故障排查技巧在PostgreSQL-XL中，序列（Sequence）是一种特殊的数据库对象，用于生成唯一的数值序列。作为分布式数据库，PostgreSQL-XL中的序列需要特殊处理以保证全局唯一性。序列的定义和作用定义：序
数据库迁移实战：如何零停机、零丢失迁移数据库？ Leaton Lee 数据库
引言：一场没有硝烟的“数据大迁徙”想象一下，你正在为一家电商公司优化数据库架构，需要将MySQL迁移到分布式数据库TiDB。但问题来了：如何在业务高峰期不停止服务，同时确保数据零丢失？这不仅是技术挑战，更是一场精密的“数据芭蕾舞”。今天，我们就从理论到实战，手把手教你完成这场“不可能的任务”！一、迁移前的“战前沙盘推演”1.1数据摸底：绘制“数据地图”数据规模：统计表大小、索引、分区信息（示例：S
如何在YashanDB数据库中保持数据一致性与完整性数据库
在现代数据库管理系统中，确保数据的一致性与完整性是面临的主要挑战之一。这一挑战在高并发、高要求的数据操作场景中尤为突出。YashanDB作为一种高性能的分布式数据库，采用了多种技术手段以保持数据的一致性与完整性。本文将深入探讨YashanDB中实现数据一致性与完整性的核心技术原理，适用于对高并发和复杂事务有一定理解的数据库管理员（DBA）和开发人员。事务管理与ACID特性事务是数据库操作的基本单元
ShardingSphere-JDBC 详解 csdn_tom_168 Apache ShardingSphere 数据库 ShardingSphere JDBC 学习
ShardingSphere-JDBC（原Sharding-JDBC）是ApacheShardingSphere的核心模块之一，定位为轻量级Java框架，在Java的JDBC层提供分库分表、读写分离、数据加密、影子库等分布式数据库增强能力。它直接操作JDBC接口，对应用透明，集成成本极低。以下是ShardingSphere-JDBC的详解：一、核心功能数据分片：分库分表：将逻辑上的大表（库）拆分成
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
分布式数据库设计——分布式数据库的基础概念庄小焱数据库域数据库
摘要分布式数据库设计系列将分为四个大的部分。将从以下四方面让大家对分布式数据库的设计和使用有深入的理解。模块一，分布式数据历史演变及其核心原理。从历史背景出发，讲解了分布式数据库要解决的问题、应用场景，以及核心技术特点。模块二，分布式数据库的高性能保证——存储引擎。这是专栏的亮点内容，简要展示了现代数据库的存储引擎，比如典型存储引擎、分布式索引、数据文件与日志结构存储、事务处理。其中，我会特别介绍
【分布式数据库】
分布式数据库是一种数据存储系统，它的设计使得数据库可以存储在多个物理位置（服务器、节点）上，同时对用户呈现为一个统一的数据库。分布式数据库的核心思想是将数据分布在多个地点进行存储和处理，这些地点可以是同一数据中心内的不同服务器，也可以是地理上分散的多个数据中心。分布式数据库的目标是在保证数据一致性、可用性和性能的前提下，提供一个灵活、可扩展且高效的数据存储解决方案。它结合了数据库系统和分布式系统的
【1.5 漫画TiDB分布式数据库】
漫画TiDB分布式数据库‍小明：“老王，TiDB作为NewSQL数据库，它是如何既保证ACID又实现水平扩展的？”‍♂️架构师老王：“TiDB是PingCAP开发的分布式关系数据库，它将传统数据库的ACID特性与NoSQL的扩展性完美结合！让我们深入了解这个’钛’级数据库！”目录TiDB核心架构分布式事务原理SQL兼容性集群部署管理性能优化Java集成实战最佳实践️TiDB核心架构三层架构设计┌─
Flink OceanBase CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink oceanbase 大数据
一、OceanBase数据库核心配置1.环境准备与版本要求版本要求：OceanBaseCE4.0+或OceanBaseEE2.2+组件依赖：需部署LogProxy服务（社区版/企业版部署方式不同）兼容模式：支持MySQL模式（默认）和Oracle模式2.创建用户与权限配置在sys租户创建管理用户（社区版示例）：--连接sys租户（默认端口2881）mysql-h127.0.0.1-P2881-ur
分布式数据库解决方案：ShardingSphere-JDBC 演示项目详解吕真想Harland
分布式数据库解决方案：ShardingSphere-JDBC演示项目详解去发现同类优质开源项目:https://gitcode.com/，帮助读者理解其工作原理，应用场景及优势。项目简介是一个简单的SpringBoot应用，它展示了如何在实际应用中集成ShardingSphere-JDBC实现数据分片。该项目包含了一个完整的开发环境配置，包括数据库创建、实体类定义、ShardingSphere配置
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
数据库领域的分区表应用数据库管理艺术数据库 ffmpeg ai
数据库领域的分区表应用关键词：数据库分区、水平分区、垂直分区、分区策略、查询优化、大数据管理、分布式数据库摘要：本文深入探讨数据库分区表技术的原理与应用。从基础概念出发，详细分析水平分区和垂直分区的实现机制，介绍主流数据库系统的分区实现方式。通过实际案例展示分区表在性能优化、大数据管理和高可用性方面的应用价值，并提供分区策略选择的最佳实践。文章还包含详细的代码示例和性能对比数据，帮助读者全面掌握这
企业如何利用YashanDB提升系统稳定性数据库
在现代多变的商业环境中，企业面临着信息处理能力的诸多挑战，如系统崩溃、数据丢失等。为应对这些挑战，提升数据库系统的稳定性显得尤为重要。YashanDB作为一款先进的分布式数据库，凭借其独特的架构和技术特性，能够为企业提供更为可靠的系统稳定性保障。本文将深入分析YashanDB提升系统稳定性的核心技术点及其优势。核心技术点高可用性架构YashanDB支持多种部署模式，如单机主备部署、分布式集群部署以
大规模分布式数据库读写分离架构：一致性、可用性与性能的权衡实践
目录1引言：数据库架构的核心三角2原创架构设计2.1读写分离系统架构2.2读写核心流程3企业级实现代码3.1Python路由服务核心代码3.2TypeScript复制状态监控3.3Kubernetes部署YAML示例4性能对比量化分析5生产级部署与安全方案5.1高可用部署架构5.2安全审计方案6技术前瞻性分析6.1演进路线图6.2关键趋势解读7附录：完整技术图谱结论1引言：数据库架构的核心三角在大
喜讯！Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖 SeaTunnel SeaTunnel 开源数据同步大数据 etl
近日，在2025上海开源创新菁英荟上，ApacheSeaTunnel凭借信创生态适配与智能化技术突破，荣获「优秀开源项目奖」。这个由中国团队孵化的开源项目，已成为全球数据集成领域的标杆。信创生态：支持20+国产数据库的无缝对接SeaTunnel深度适配华为OpenGauss、阿里OceanBase等20+主流国产数据库，支持CDC（变更数据捕获）与高性能加载。在证券行业信创转型中，SeaTunne
GoldenDB简述
GoldenDB是国产的分布式数据库。它解决了分布式事务一致性问题。底层存储采用的是SharedNothing不共享数据（分片式存储）的分布式架构，各自节点持有各自的数据。不共享彼此数据，还有其他两种分布式架构，分别是Sharedisk，共享磁盘，例如NFS，网络文件系统，采用的就是这种架构。NFS是一种基于客户端-服务器架构的文件系统。它通过网络，特别是局域网，让多台计算机可以共享文件和目录。还
喜讯！Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖数据库
近日，在2025上海开源创新菁英荟上，ApacheSeaTunnel凭借信创生态适配与智能化技术突破，荣获「优秀开源项目奖」。这个由中国团队孵化的开源项目，已成为全球数据集成领域的标杆。信创生态：支持20+国产数据库的无缝对接SeaTunnel深度适配华为OpenGauss、阿里OceanBase等20+主流国产数据库，支持CDC（变更数据捕获）与高性能加载。在证券行业信创转型中，SeaTunne
ORACLE数据库转国产阿里OceanBase数据库
1.BLOB类型修改将接口内oracle.sql.BLOB改为java.sql.Blob2.REGEXP_LIKE判断函数正则表达式中字符转义问题OB的正则表达式使用的是标准的Linux模式,oracle是黑盒子,在处理部分转义符([]+)的时候,Oracle无需使用转义符,OB务必使用转义符,加/转义处理,例如在regexp_like(t.xx,’^(+|[0-9]+)$’)改为regexp_l
OceanBase批量插入数据报错java.lang.ArrayIndexOutOfBoundsException:0 二宝哥 oceanbase java 开发语言
OceanBase数据库MySQL模式，插入数据报错，直接首先换了连接池，插入数据成功。参考文章：com.mysql.cj.jdbc.result.ResultSetMetaData.getCloumnType(ResultSetMetaData.java:188)空指针-CSDN博客批量插入数据时，报错如下：OceanBase社区中搜索批量插入报错，出现“ArrayIndexOutOfBound
构建全栈式数据库与消息队列服务治理体系：监控、告警与组件搭配实践喝醉酒的小白 DBA K8s 数据库
目录标题分类✅一、分类总览表✅二、详细分类说明1.关系型数据库（RDBMS）2.NoSQL数据库3.分布式系统协调组件4.消息队列系统✅三、按用途分类（实战参考）✅四、开源vs商业（闭源）分类全面的监控指标分类与告警模板清单✅一、通用结构✅二、数据库系统级别详细监控项与告警模板1.MySQL/TiDB/OceanBase2.PostgreSQL/openGauss/GaussDB/KingBase
【赵渝强老师】OceanBase数据库从零开始：Oracle模式
这里我们来介绍一下新上线的课程《OceanBase数据库从零开始：Oracle模式》，本门课程共11章，视频讲解如下：https://www.bilibili.com/video/BV1r4NCzHEka/?aid=114720556191...下面详细介绍一下每一章的主要内容：第01章-OceanBase的体系架构本章主要介绍OceanBase分布式数据库集群的体系架构，包括：OBServer节
【赵渝强老师】OceanBase OBServer节点的目录结构
OceanBaseOBServer节点工作目录下通常有audit、bin、etc、etc2、etc3、log、run、store等目录，但这些目录并非都是安装必须的。在启动OBServer节点前需要保证etc、log、run、store这4的目录存在，同时store下应该有clog、slog、sstable这3个目录。etc2、etc3是备份配置文件用的，由OBServer节点创建。audit下存
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
技术调研：时序数据库（一） myskybeyond 时序数据库时序数据库数据库
选择时序数据库时，选择当下主流的解决方案。目前主流的开源解决方案有InfluxDB、TDengine和TimescaleDB。下文从多个维度对比分析，最终根据需求做出选型决策。1.核心架构与设计理念数据库架构特点核心优势InfluxDB-专为时序数据设计的分布式数据库-基于时间线（TimeSeries）模型-开源版（OSS）与商业版（Cloud/Enterprise）功能差异大高写入吞吐量、原生支
巧用OpenManus开发自动诊断Agent，解决复杂问题人工智能数据库agent
作者：杜振鹏，联通软件研究院数据库研发工程师首先为大家推荐这个OceanBase开源负责人老纪的公众号“老纪的技术唠嗑局”，会持续更新和#数据库、#AI、#技术架构相关的各种技术内容。欢迎感兴趣的朋友们关注！在自主可控背景下，联通软件研究院为了应对MySQL5.7停服风险、降低商用依赖以及提升软实力等几方面综合考虑，在三年前选择基于OceanBase社区版打造自研分布式CUDB产品。同时，聚焦数据
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl