dengkane

探讨数据时代构建高可用数据库的新技术

作者：崔秋，PingCAP 联合创始人，重度开源爱好者，曾任职于搜狗、豌豆荚，长期从事广告系统基础组件相关的研究，现主要从事开源NewSQL 数据库 TiDB/TiKV 相关的设计和研发工作。

责编：郭芮（[email protected]），关注大数据领域。

本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅2017年《程序员》。

近几年，随着移动互联网的发展、云计算的普及和各种新业务的出现，数据呈现爆发式增长，给整个业务系统带来了越来越大的挑战，特别是对于底层数据存储系统。完美的高可用系统，是所有公司最理想的追求。如果只从应用层和缓存层看高可用问题，是比较容易解决的。对于应用层来说，根据业务特点可以很方便地设计成无状态的服务，在大多数互联网公司中，在业务层的最上层使用动态DNS、LVS、HAProxy等负载均衡组件，配合Docker和Kubernetes实现弹性伸缩，能够很容易实现应用服务的高可用。对于缓存层来说，也有很多可选的开源方案来帮助解决，比如Codis、Twemproxy、Redis Cluster等等，如果对缓存数据的一致性和实时性要求不高，这些方案就可以很好解决缓存层面的问题。但对存储层来说，支持高可用非常困难。

在互联网架构中，最底层的核心数据存储一般都会选择关系型数据库，最流行的当属MySQL。大数据时代，大家渐渐发现传统的关系型数据库开始出现一些瓶颈：单机容量不能支撑快速增长的业务需求；高并发的频繁访问经常造成服务的响应超时；主从数据同步带来的数据不一致问题；大数据场景下查询性能大幅波动等等。

当前，数据库方案有了很多不一样的变化。首先，不同于早期的单机型数据库，在当下数据呈现爆发式增长，数据总量也从GB级别跨越到了TB甚至PB级别，远超单机数据库的存储上限，所以只能选择分布式的数据存储方案。其次，随着存储节点的增加，存储节点出问题的可能性也大大提高，光靠人工完全不现实，所以需要数据库层面保证自己高效快速地实现故障迁移。另外，随着存储节点的增加，运维成本也大大增加，对自动化工具也提出了更高要求。最后，新分布式数据库的出现，用户在OLTP数据库基本需求的基础上，对大数据分析查询的业务要求更高，在某种程度上OLTP和OLAP融合的新型数据库会是未来极具潜力的发展方向之一。

什么是高可用

Wikipedia的解释中，高可用即High Availability，一般通过SLA（Service Level Agrement）来衡量。这里从CAP角度来看待高可用问题。CAP是分布式系统领域一个非常著名的理论，由Berkerly的Brewer提出。该理论认为任何基于网络的分布式系统都具有以下三要素：

数据一致性（Consistence）：等同于所有节点访问同一份最新的数据副本；
可用性（Availability）：对数据更新具备高可用性；
分区容忍性（Partition tolerance）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A间做出选择。

三要素不能同时满足。但后来很多人将CAP解读为数据一致性、可用性和分区容忍性最多只能满足两个，这种解读本身存在一定的误导性，原因就在于忽略了特定条件。假想两个节点N1和N2，在某些场景下发生了分区（P）问题，即N1和N2分处分区的两侧。这时对于外部的写操作来说，如果允许任一节点可写的话就相当于选择了A，丧失了C。同样，如果为了满足C，那么写入操作就会失败，A就无法保证，所以存在分区问题时，无法同时保证A和C。虽然分区在局域网中出现的概率相对很低，但却无法避免，所以系统只能在CP和AP之间做出权衡。

当前有很多的NoSQL数据库，在CAP之间选择了AP，比如Amazon Dynamo和Cassandra，追求可用性，适当牺牲一致性，只实现最终一致性。这种选择允许短时间的数据不一致，并且可以交由用户自己来处理写入冲突，但是可以随时接受用户的读写请求。在这种场景下就需要特别注意数据不一致引起的各种奇怪问题，对于比较严肃的业务场景，比如订单、支付等，对事务和一致性要求比较高，这种AP类型的系统就不适用了。而且该系统放弃了SQL和ACID事务，给开发人员带来了更多的开发工作和额外的心智负担，很容易出现问题，所以NoSQL数据库牺牲一致性来获取服务的可用性，并没有彻底解决大数据时代数据库的高可用问题。

大数据时代，传统的关系型数据库必然会由单机扩展到分布式，追求数据一致性，所以必然会是一个CP类型的系统，像这种新型的、下一代的分布式关系型数据库，既具有传统单机数据库的SQL支持和ACID事务保证，又有NoSQL数据库的Scale特点，称为NewSQL数据库，包括Google的Spanner/F1、PingCAP的TiDB等等。但从CAP的角度看，选择CP并不意味着完全放弃了A，CP系统只是在某些产生分区的场景下不能实现100%的A，但完全可以通过有效的办法来实现高可用（HA）。由此可见，并不是CP系统就完全放弃了A，只不过在产生分区的场景下无法从理论上保证A，这是一个常见的误解。

澄清了CAP的问题，下面讨论如何打造高可用的数据库。数据库是一个非常大的概念，从传统单机SQL，到NoSQL，再到现在流行的NewSQL，这里面不同的实现方案实在太多，本文聚焦在关系型数据库，主要探讨最流行的MySQL数据库及其生态。最近几年，随着大家在分布式数据库领域的探索，出现了很多不同类型的解决方案，比如中间件/Proxy的方案，典型的比如TDDL、Cobar、Altlas、DRDS、TDSQL、MyCAT、KingShard、Vitess、PhxSQL等，还有一种新型的NewSQL数据库，比如Google Spanner/F1、Oceanbase、TiDB等。下面看下业界在打造高可用数据库方面新的技术进展，以及和传统方案选型的对比。

消除单点问题

为了实现数据库层面的高可用，必须要消除单点问题（SPOF）。存在单点服务的情况下，一旦单点服务挂掉，整个服务就不可用。消除单点问题最常用的方案就是复制（Replication），通过数据冗余的方式来实现高可用。

为什么必须要冗余？数据库本身是有状态的，不会像无状态的服务那样挂掉就可以重启，而数据库本身能够保证数据持久化，所以如果没有冗余副本，一旦数据库挂掉，只能等待数据库重启，在这段恢复时间服务完全不可用，高可用就无法保证。但如果有了额外的数据副本，高可用就变得可能了，主要能保证在检测到服务发生问题之后及时做服务切换。

对于MySQL来说，默认复制方式是异步的主从复制方式，虽然这种方案被很多的互联网公司所采用，但实际上这种方案存在一个致命问题——存在丢失数据的风险。数据传输经过网络，这也就意味着存在传输时延，那么对于异步复制来说，主从数据库的数据本身是最终一致性的，所以主库一旦出现了问题，切换从库极有可能会带来数据不一致的风险。

因为异步复制方式存在更大的问题，很多时候大家都会考虑用半同步复制方式Semi-Sync，这种数据复制方式在默认情况下会使用同步的数据复制方式，不过在数据复制压力较大的情况下，就会退化成异步的数据复制方式，所以依然会存在高可用问题。当然，也有人会选用完全同步的方式，但是这种复制方式在并发压力下会有明显的性能问题，所以也不常用。

那有没有一种数据复制方式，能同时保证数据的可靠性和性能？答案是有的，那就是最近业界讨论较多的分布式一致性算法，典型的是Paxos和Raft。简单来说，它们是高度自动化、强一致的复制算法。以Raft为例，Raft中基数个节点组成一个Raft Group，在一个Raft Group内，只要满足大多数节点写成功，就认为可以写成功了，比如一个3节点的Raft Group，只要保证Raft Leader和任意一个Raft Follower写成功就可以了，所以同步写Leader，异步写两个Follower，只要其中一个返回就可以，相比完全的同步方式，性能要好很多。所以从复制层面来看，Raft更像是一个自适应的同步+异步复制方案，同步和异步的最优选择通过Raft算法来保证。

庆幸的是，业界早已意识到这个问题，从最开始的Galera Cluster探索到前段时间微信开源的PhxSQL，再到最新MySQL官方发布的MRG（MySQL Group Replication），还有我们从0到1打造的开源分布式数据库TiDB，都在这方面进行了探索。大家的出发点基本相同，采用新的分布式一致性来替换传统的Master-Slave复制方式，不同的仅仅是大家选择的协议：TiDB选择了Raft，而PhxSQL和MRG选择了Paxos。

由此看出，新一代高可用的数据库必然会使用分布式一致性算法来实现数据复制，这已是业界的趋势。

自动故障恢复

有了数据复制，理论上来说，在一个数据库节点出现问题时就不用那么慌张，毕竟还有额外的数据副本存在。所以下面要做的就是尽早发现服务故障并快速恢复，也就是常说的Auto-failover。

从这个层面来看，目前基于主从的数据库复制方案基本上无法脱离运维，使用中间件/Proxy方案更会增加难度，毕竟人力运维是有上限的，所以选择这种方案，人力成本也是一个需要考虑的问题。Google之前在广告业务中也是使用的MySQL中间件方案，大约100个节点的规模，在这个量级下维护的复杂度和成本非常高。所以Google要做一个真正替换MySQL中间件的理想方案，这就有了后来的Google Spanner/F1，包括后来的TiDB，都采用了这种新的NewSQL架构，唯一不同的是，Google选择了Paxos，而TiDB选择了Raft。这种分布式一致性算法，除了提供优雅的复制方案，还可以提供高效的Auto-failover支持。

要想实现Auto-failover，首先需尽快检测到Fail情况。常用方式是通过LVS或者HAProxy之类的负载均衡组件，或者通过类似的Monitor进行远程监控，但对于网络来说，存在三种不同的状态：Success/Failure/Timeout，因为存在Timeout，Monitor的监控不完全准确，而且Monitor本身也会存在高可用问题，所以外部监控不一定完全靠谱，这也是需要考虑的问题。但是以分布式一致性算法Raft为例，Raft内部维护Raft Group，正常情况下都是Leader提供数据读写服务，当Leader出现问题时会自动从Follower中选择新的Leader出来。Raft通过内部的心跳来感知不同节点的状态，并且直接完成Auto-failover，所以Raft是高度自动化并且可以自恢复的。相比于检测再处理的算法，这种基于分布式一致性算法的Auto-failover能力更强，效率更高，当然速度也更快，基本上在秒级别就可以完成Leader更新，继续提供服务，而且是完全自动化的。

关于Auto-failover还有一个引申的跨数据中心多活问题。这基本上是所有分布式系统开发者心中的圣杯，金融级别的数据可用性和安全性。目前从纯软件方案来看，基本没有靠谱的方案，大多数人所谓的异地多活方案实际上底层仍是同步热备，而且很难在保证延迟的情况下同时保持一致性，但是基于Paxos/Raft的方案给多活提供了新的可能性。还是以Raft为例，只要一个Raft Group内的大多数节点复制成功，并在物理节点层面按照特定的方式部署，就可以在软件层面构建一个两地三中心的方案。举个例子，如果这个Raft Group内有三个节点，分别在北京、天津和上海的三个数据中心，对于传统的强一致方案，一个在北京发起的写入需要等待天津和上海的数据中心复制完毕，才能给客户端返回成功，但是对于Raft这样的算法，延迟仅仅在北京和天津数据中心之间，相比传统方案大大降低了延迟。虽然对于带宽的要求仍然很高，但这是未来在数据库层面上实现跨数据中心多活的一个趋势和可行方向，实际上Google分别位于美国西海岸、东海岸以及中部的Spanner数据中心，已经做到了跨地域的数据高可用。真正实现跨数据中心多活，就不用担心挖断光纤导致服务不可用之类的问题了。

在线扩容

随着数据库的数据量越来越大，Scale是不可避免的问题。对于数据库来说，技术层面最大的追求就在于如何不停服务地对数据库节点进行Scale操作，这是非常有挑战性的事情。以中间件/Proxy方案来说，很多时候不得不提前对数据量进行规划，把扩容作为重要的计划来做，从DBA到运维到测试到开发人员，很早之前就要做相关的准备工作，真正扩容时为了保证数据安全，经常会选择停服务来保证没有新的数据写入，新的实例数据同步后还要做数据的一致性校验。当然业界大公司有足够雄厚的技术实力，可以采用更自动化的方案，将扩容停机时间尽量缩短（但很难缩减到0），但大部分中小互联网公司和传统企业依然无法避免较长时间的停服务问题。TiDB完全实现了在线的弹性扩容，主要基于Placement Driver的调度和Raft算法。

Placement Driver是TiDB核心组件之一，时刻监控整个系统的状态，包括每个机器的负载和容量等。当加入一个新的节点时，它会感知到这个事件，并会触发其他负载较高的节点进行Balance操作，通过Raft算法的Config Change和Leader Transfer操作来让整个系统的负载平衡。对用户来说，有了这个特性体验会非常好。如果是电商用户，那么在促销活动之前（比如双11），提前增加数据库节点就可以支撑更高的业务压力，而当活动过后又可以移除掉多余的节点，又可以收缩回来，整个弹性伸缩过程非常平滑，基本就是几个简单的操作，其它一切都是高度自动化的，使用成本特别低。

当然这里面还有一个影响高可用的因素，就是对于一个Paxos或者Raft Group来说，如果数据量太大，在数据Balance或者Recover时就会有很长的数据传输和更新时间，所以将数据在线切分成比较小的数据块是不可或缺的操作，也就是常说的分裂（Split）操作。其中最困难的在于如何保证Split操作的原子性，并且让路由不一致的时间窗口尽可能缩短。TiDB完整实现了在线Split操作，内部处理了路由更新的重试操作，所以对于应用层来说基本上无感知。

在线表结构变更

数据量较大时，数据库的DDL操作也是一个需要注意的高可用问题。以常见的Add Column操作为例，在表规模很大的情况下通常会造成数据库锁表，导致数据库服务不可用。对于中间件/Proxy方案来说，因为依托于底层的单机MySQL数据库提供DDL支持，所以很难从根本上解决，只能依赖于第三方工具，比如Facebook和Percona的方案，当然这些方案也有本身的局限性。最近业界有了更好的进展，比如Github数据团队的方案gh-ost，处理表级别的Binlog，将原表的数据同步到新的临时表中，当数据追平时再进行一个数据库操作，将临时表命名为原表，这样一个AddColumn操作就完成了。这种方案依然要引入额外的组件，除了学习成本之外，也要考虑额外组件的高可用问题。但实际上Google的F1给我们提供了更好的实现参考，TiDB即是根据F1启发进行的研发，简单来说，就是通过把TiDB中DDL操作的状态设定为前向兼容的几个不同状态，中间严格保证不能跨越两个状态。为什么这样？因为整个TiDB集群是分布式的，没有办法把DDL操作实时通知给所有的TiDB节点，就会出现部分TiDB节点感知到了DDL变化，另一部分TiDB节点还没有感知到的情况，这样就可能导致数据不一致。比如对于一个Add Index的DDL，有一个节点先感知到了，然后对于插入数据就增加了一个Index，但是另外一个节点没有感知到，正好这个节点还有一个删除操作，所以就只把行数据删除了，但Index还留在里面，这样当使用Index查询这行时就会找不到数据。TiDB参考的算法是Google F1中一个非常经典的算法，感兴趣的可以看看这篇文章Online, Asynchronous Schema Change in F1。

大数据时代，新的业务类型和数据爆发式增长，给数据库带来了更大的挑战，新的方案层出不穷。本文主要从几个方面介绍打造高可用数据库的新技术进展，以及和传统技术方案的对比，抛砖引玉，希望能给整个技术社区带来一些参考和帮助。

转载自：http://www.tuicool.com/articles/2ueQFvj

DMDPC安装部署丷月亮是指路牌数据库
1.DMDPC架构DMDPC架构由计划生成节点SP、数据存储节点BP和元数据服务器节点MP三部分组成：1、SP对外提供分布式数据库服务，用户可以登录到任意一个SP节点，获得完整的数据库服务；2、BP负责存储数据，执行SP的调度指令并将执行结果返回给SP；3、MP负责存储元数据并向SP、BP提供元数据服务。本文是在1台Linux虚拟机上通过创建四个实例的方式进行集群搭建.2.DMDPC集群规划DMD
DM8 分布计算集群（DMDPC）Docker 命令行部署指南 69岁法外狂徒 docker 容器数据库分布式
简介DMDPC是一款同时支持在线分析处理(OLAP)和在线事务处理(OLTP)的新型分布式数据库系统。它不仅保留了传统单机数据库的大部分功能，还提供了分布式计算集群所特有的高可用性、高扩展性、高性能、高吞吐量以及对用户透明等高级特性。本文借助命令行工具部署DPC集群。系统架构DMDPC的架构由三个核心组件组成：计划生成节点(SP)：对外提供分布式数据库服务，负责接收用户请求、生成执行计划，并调度计
发现域名的故事：WHOIS数据库查询指南 WhoisXMLAPI 前端服务器 linux 网络安全运维
WHOIS系统WHOIS系统是一个全球分布式数据库，包含与互联网资源（如域名或IP地址）相关的实体信息。它被称为"互联网的电话簿"。1.1WHOIS数据WHOIS系统中可用的数据。它被组织成WHOIS记录。在不同的WHOIS服务器上，这些记录可能有不同的字段结构。1.2WHOIS服务器存储WHOIS数据的服务器。它们通常由注册管理机构和注册服务商运营，并使用WHOIS协议。这个系统提供了一种查询和
2020年10月国产数据库排行：GoldenDB跃升异军突起 PolarDB和GaussDB云化融合数据和云微软 informix 分布式存储 microsoft cloudera
墨墨导读：2020年10月国产数据库流行度的前三位由TiDB、达梦数据库、GBase（南大通用）获得，其中TiDB以超过100分的优势领先第二位的达梦数据库。数据技术嘉年华，十周年盛大开启，点我立即报名！大会以“自研·智能·新基建——云和数据促创新生态融合新十年”为主题，相邀数据英雄，总结过往十年历程与成绩，展望未来十年趋势与目标！近60场演讲，大咖云集，李飞飞、苏光牛、林晓斌、黄东旭...，快来
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
TiDB数据库傲雪凌霜，松柏长青后端 tidb 数据库
TiDB是由PingCAP开发的开源分布式SQL数据库，设计初衷是为了解决传统单机关系型数据库在处理大规模数据和高并发事务时的扩展性和性能问题。它结合了传统关系型数据库（如MySQL）的易用性和分布式系统的扩展能力，属于新一代的分布式SQL数据库。TiDB的关键特性兼容MySQL协议：TiDB兼容MySQL协议，用户可以直接使用MySQL客户端或MySQL的各种生态工具（如MySQLWorkben
分布式数据库架构：从单实例到分布式，开发人员需及早掌握？我爱娃哈哈 MySQL实战分布式数据库架构数据库
现在互联网应用已经普及，数据量不断增大。对淘宝、美团、百度等互联网业务来说，传统单实例数据库很难支撑其性能和存储的要求，所以分布式架构得到了很大发展。而开发人员、项目经理，一定要认识到数据库技术正在经历一场较大的变革，及早掌握好分布式架构设计，帮助公司从古老的单实例架构迁移到分布式架构，对自己在职场的竞争力来说，大有益处。一、什么是分布式数据库？Wiki官方对分布式数据库的定义为：Adistrib
ClickHouse与其他数据库的对比九州Pro ClickHouse 数据库 clickhouse 数据仓库大数据 sql
目录1与传统关系型数据库的对比1.1性能差异1.2数据模型差异1.3适用场景差异2与其他列式存储数据库的对比2.1ApacheCassandra2.2HBase3与分布式数据库的对比3.1GoogleBigQuery3.2AmazonRedshift3.3Snowflake4ClickHouse的缺点5ClickHouse的其他优点1与传统关系型数据库的对比1.1性能差异ClickHouse是一种
TDSQL MySQL版基本原理-水平分表读写分离弹性扩展强同步腾讯云数据库腾讯云数据库
TDSQLMySQL版（TDSQLforMySQL）是部署在腾讯云上的一种支持自动水平拆分、SharedNothing架构的分布式数据库。TDSQLMySQL版即业务获取的是完整的逻辑库表，而后端会将库表均匀的拆分到多个物理分片节点。水平分表概述水平拆分方案是TDSQLMySQL版的基础原理，它的每个节点都参与计算和数据存储，且每个节点都仅计算和存储一部分数据。因此，无论业务的规模如何增长，我们仅
区块链1——区块链基础概念风不归Alkaid 区块链区块链
区块链索引目录一、介绍区块链技术1、什么是区块链区块链是一种基于分布式数据库和加密技术的技术，它的特点包括去中心化、不可篡改、安全可靠等。这些特点使得区块链技术在金融、供应链、医疗等领域都有着广泛的应用前景。当谈到区块链技术时，我们首先需要了解什么是区块链。区块链是一种分布式数据库技术，它以一种特殊的方式存储数据，使得数据无法被篡改，并且可以被多个参与者共享和访问。更详细地解释一下：分布式数据库：
为什么需要分布式数据库 KunlunBase 昆仑数据库 KunlunBase postgresql 数据库 mysql 分布式存储数据库开发
这些年，由于数据规模和业务访问负载越来越大，越来越多的公司无法依赖单台数据库服务器支撑其业务，越来越多的公司不得不做数据分区存储，也就是所谓的分库分表，但大量的烦恼与困惑也随之而来。令人“头都大了”的分库分表中间件10多年前阿里因此原因不得不把淘宝后台系统从OracleRAC切换到数百个MySQL集群构成的分库分表集群，不过那时的淘宝仅仅使用一个分库分表中间件，名为tddl（又名：头都大了，江湖上
数据库分库分表-ShardingSphere学习学Java的skyyyyyyyy 数据库 java
ShardingSphere是一个开源的分布式数据库中间件解决方案，旨在提供数据库分片、分布式事务、读写分离、数据治理等多种数据服务，它以模块化的方式设计，使用户可以根据不同的应用场景选择适合的模块来部署。ShardingSphere架构概述ShardingSphere的架构主要围绕四个核心组件展开，分别是Sharding-JDBC、Sharding-Proxy、Sharding-Sidecar（
HTAP 深入探索指南每天读点书学堂大数据数据库数据库开发
本指南介绍如何进一步探索并使用TiDB在线事务与在线分析处理(HybridTransactionalandAnalyticalProcessing,HTAP)功能。注意如果你对TiDBHTAP功能还不太了解，希望快速试用体验，请参阅快速上手HTAP。要快速了解TiDB在HTAP场景下的体系架构与HTAP的适用场景，建议先观看下面的培训视频（时长15分钟）。注意本视频只作为学习参考，如需了解详细的H
梧桐数据库（WuTongDB）：存算分离和存算一体架构的分布式数据库技术分析鲁鲁517 梧桐数据库数据库架构分布式梧桐数据库
摘要：随着数据量的不断增长和对数据处理性能的要求越来越高，分布式数据库技术成为了数据存储和处理的重要解决方案。存算分离和存算一体是两种常见的分布式数据库架构，它们在数据存储和计算方面有着不同的特点和优势。本文将对存算分离和存算一体架构的分布式数据库技术进行分析，比较它们的优缺点，并探讨它们在不同场景下的应用。一、引言在大数据时代，数据的存储和处理成为了企业面临的重要挑战。传统的单机数据库已经无法满
GBase 8c 分布式核心技术—CDC数据同步 manhuai2022 GBase 8c 数据库服务器 java
数据库系统作为企业IT基础设施中的重要组件，其稳定性与可用性是上层系统运行的必要基础。并且随着数字化发展，大量的核心业务对于城市级别容灾提出了更高的要求。作为一款分布式数据库，GBase8c可轻松实现例如两地三中心架构的集群异地灾备。GBase8c异地灾备集群间的不同节点采用各自对应的高可用部署方式，两地间采用同步或者异步复制的备份方式。可以抵御硬件级别故障、机房级别和城市级别灾难，两地之间距离可
TiDB备份与恢复简介每天读点书学堂大数据数据库架构数据库数据库开发运维
本文档介绍如何对Kubernetes上的TiDB集群进行数据备份和数据恢复。备份与恢复中所使用的工具有Dumpling、TiDBLightning和BR。Dumpling是一个数据导出工具，该工具可以把存储在TiDB/MySQL中的数据导出为SQL或者CSV格式，可以用于完成逻辑上的全量备份或者导出。TiDBLightning是一个数据导入工具，该工具可以把Dumpling或CSV输出格式的数据快
探索阿里巴巴的增量数据处理利器：Canal 费琦栩
探索阿里巴巴的增量数据处理利器：Canalcanalalibaba/canal:Canal是由阿里巴巴开源的分布式数据库同步系统，主要用于实现MySQL数据库的日志解析和实时增量数据订阅与消费，广泛应用于数据库变更消息的捕获、数据迁移、缓存更新等场景。项目地址:https://gitcode.com/gh_mirrors/ca/canal项目介绍Canal，源自阿里巴巴的强大开源项目，是一个专为M
智能合约与身份验证：区块链技术的创新应用星途码客前沿科技智能合约区块链
一、引言区块链，一个近年来备受瞩目的技术名词，已经从最初的数字货币领域扩展到了众多行业。那么，究竟什么是区块链？它为何如此重要？本文将深入剖析区块链技术的原理、应用及未来发展。二、区块链的基本概念区块链，从本质上讲，是一个去中心化的分布式数据库。它由一系列按照时间顺序排列的数据块组成，并采用密码学方式保证不可篡改和不可伪造。每一个数据块中包含了一定时间内的所有交易信息，包括交易的数量、交易的时间、
等保2.0--安全计算环境--TiDB数据库魔同等保测评安全 tidb 数据库
在使用本博客提供的学习笔记及相关内容时，请注意以下免责声明：信息准确性：本博客的内容是基于作者的个人理解和经验，尽力确保信息的准确性和时效性，但不保证所有信息都完全正确或最新。非专业建议：博客中的内容仅供参考，不能替代专业人士的意见和建议。在做出任何重要决定之前，请咨询相关领域的专业人士。个人责任：使用本博客内容的风险由用户自行承担。作者不对因使用本博客内容而导致的任何直接或间接损失承担责任。版权
《区块链：重塑经济与世界》 simple涯
《区块链：重塑经济与世界》：我们生活在一个奔腾的年代，苹果重塑手机，谷歌战胜李世石，特斯拉重新定义汽车。科技不断重塑着我们的经济、生活和世界。一种全新的金融网络、分布式数据库技术从底层蓬勃而出，将重塑整个金融和经济，可能会让比尔•盖茨的预言“你们传统银行如果不改变，就是21世纪要灭绝的恐龙”应验。这个技术就是区块链。区块链的诞生颇具传奇色彩，而它引发的一系列产物：数字货币、智能合约、分布式治理等更
窥一斑而知全豹薛晓刚数据库
说几个DTCC大会的插曲由于经济形势的不好，我看参展商少了一点。可能不少都是为了生计而挣扎。2023年1月明叔主持的栏目有一期特别节目《数据库诸神之战》，请来了OB、TiDB、TDSQL和TDEngine的掌门人来讨论数据库的未来，那时候结论是3年后国内健康运营的数据库公司不超过30家。目前已经快过去2年了。现在日子的确越来越难过了。现实可能和预测差不多。从出版社少到图书劵少每次大会都有各家出版社
Python知识点：如何使用HBase与HappyBase进行分布式存储杰哥在此 Python系列分布式 python hbase 编程面试
使用HBase与HappyBase进行分布式存储是处理大规模数据的有效方式。HBase是一个基于Hadoop的开源分布式数据库，可以处理非常大的表。HappyBase是一个Python库，它提供了一个友好的接口来与HBase交互。以下是详细的步骤：1.安装HBase和HappyBase安装HBase首先，确保你已经安装并配置好HBase。你可以通过以下步骤安装HBase：下载HBase：Apach
图数据库之ArangoDB james二次元图数据库数据库图数据库 arangodb 推荐系统社交网络
ArangoDB是一个多模型、开源的分布式数据库，支持文档、图和键值存储三种数据模型。它以其灵活性和强大的查询能力而著称，特别是在需要处理复杂数据关系的场景下。ArangoDB的设计目标是提供一个统一的、高效的数据存储解决方案，适合于各种应用场景，如实时分析、内容管理系统、物联网（IoT）和社交网络等。官方地址：ArangoDB:Multi-ModelDatabaseforYourModernAp
开源项目精选：Bookshop Demo - 您的云端书店解决方案毛彤影
开源项目精选：BookshopDemo-您的云端书店解决方案tidb-prisma-vercel-demoVirtualonlinebookstoreapplicationdemowhichyoucanfindbooksofvariouscategoriesandratethebooks.项目地址:https://gitcode.com/gh_mirrors/ti/tidb-prisma-verc
Tair分布式缓存 kingkyrie 分布式
淘宝缓存架构redis很好用，提供缓存服务。相比memcached多了新数据结构和主从模式增加可用性。不过redis有一点不能满足一些互联网公司开发者需求。redis集群中，想用缓存必须得指明redis服务器地址去要。这就增加了程序的维护复杂度。因为redis服务器很可能是需要频繁变动的。为什么不能像操作分布式数据库或者hadoop那样，增加一个中央节点，让它去代理所有事情。所以就开发了这个tai
OLAP和OLTP以及HTAP的区别霸王龙的日常数据库概念数据库数据仓库
数据处理一般可以分成两大类：OLAP和OLTP那么有没有一种情况，将OLTP和OLAP相融合，在同一个系统中同时提供这两种服务，答案是有的。即HTAP产品。在这方面，国内的数据库厂商PingCAP的TiDB就不错。还有华为的GaussDB(openGauss)也对外公布六大关键技术特性其中之一就是高度支持HTAP混合负载。什么是OLAP？联机分析处理OLAP（OnLineAnalyticalPro
【数据库】GaussDB 一起学架构数据库数据库
目录一、GaussDB是什么数据库？二、GaussDB与Tidb、OcceanBase数据库的差别有哪些三、GaussDB的整体架构是怎么样的？四、GaussDB的核心技术特点是什么？五、GaussDB的适用场景有哪些？六、GaussDB在不同场景的一些最佳实践案例七、GaussDB性能优化技巧八、GaussDB使用的注意事项一、GaussDB是什么数据库？Gauss数据库是基于PostgreSQ
区块链技术的应用场景和优势田木木区块链区块链
区块链技术是一种去中心化、安全、透明的分布式数据库技术，被广泛应用于各个行业。以下是区块链技术的一些应用场景和优势：1.金融领域：区块链可以用于构建安全的、可追溯的支付系统，提高发起支付和清算效率，减少中间商的参与，降低交易成本。2.物联网：区块链可以建立可信、安全的物联网网络，用于设备之间的身份验证、数据传输和交易记录，确保物联网数据的真实性和可靠性。3.供应链管理：区块链技术可以追踪产品的整个
MYSQL的读写扩展 hailang86 mysql 数据库
1.分布式数据库有很多种：采用分库分表方式将数据路由拆分到多个数据库上；以greenplum未代表的mpp数据库架构；以tidb为代表的newSQl数据库架构。2.mpp数据架构是一种处理大规模数据分析任务的分布式数据架构，大规模并行处理。当执行一条SQL语句时，会将语句发送到所有数据节点进行查询处理，利用多节点的计算能力进行计算。3.分库分表主要用于简单的业务场景，OLTP场景，onlinetr
MySQL8.3 可以给 GTID 打标签了！ mysqlgtid事务
本文介绍了MySQL8.3的一个新特性，给GTID打标签~作者：李富强，爱可生DBA团队成员，熟悉MySQL，TiDB，OceanBase等数据库。相信持续把对的事情做好一点，会有不一样的收获。爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。本文约900字，预计阅读需要3分钟。摘要MySQL8.3创新版于2024年1月16号发布，该版本扩展了MySQL复制和组复制中使用
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

探讨数据时代构建高可用数据库的新技术

你可能感兴趣的:(tidb,分布式数据库)