wkwanglei

分布式MySQL数据库TDSQL架构分析

摘要：腾讯计费平台部为了解决基于内存的NoSQL解决方案HOLD平台在应对多种业务接入时的不足，结合团队在MySQL领域多年应用和优化经验，最终在MySQL存储引擎基础上，打造一套分布式SQL系统TDSQL。本文是对该系统架构分析。

腾讯计费平台部托管着公司90%以上的虚拟账户，如QB、Q点、包月服务、游戏的二级账户等，为了保证能顺畅支撑公司各大业务的实时在线交易，并且在各种灾难场景下数据是一致并且可用的，对系统的可用性、一致性切换要求非常高，因此计费团队历来都非常重视高一致性存储系统的建设。

到目前为止，计费高一致性存储层的解决方案大致经过了3个阶段，本文将分享最新的基于MySQL的分布式解决方案。

随着业务的发展，基于内存的NoSQL解决方案HOLD平台在高峰期一天支撑3000亿读写，证明了分布式Cache的巨大价值；但随着各种业务的接入，NoSQL方案的不足也逐步显现出来了，如下所示。

适用的业务场景比较有限，仅提供get/set操作，有不少业务场景希望能通过记录中的其他字段做索引来查询，比如流水类业务。
不是所有的数据都是热点，一台64GB内存机器提供的有效内存空间大概在50GB左右，而采用Fusion卡的机型容量一般在1TB以上，对比起来，如果所有数据放入分布式Cache明显是一种极大的浪费，最合理的当然是热点在HOLD，冷数据采用基于磁盘的存储。
计费平台部多年来在支付领域有了相当多的技术积累，HOLD作为NoSQL系统功能有限，因此建造一套更加强大通用的高一致性存储系统将整个支付领域的实时数据（重点是账户数据、用户订单数据，以及海量的流水数据）统一管理起来非常有价值。

基于上面的分析，结合我们在MySQL领域多年的应用和优化经验，最终决定在MySQL存储引擎基础之上，打造一套分布式的SQL系统。

保持原来的MySQL协议，这样以前访问MySQL系统的C++、Java各类系统都不需要修改，DBA能继续保持原来大部分使用习惯。
自动的跨IDC容灾切换，同时保证数据一致性，对于提交成功的事务保证一笔不丢，达到银行级对容灾的要求。
灵活的容量伸缩机制，对业务透明，解决MySQL本身扩容不灵活的问题。
重点支持OLTP类型的在线业务。

整体架构

针对上面的需求，TDSQL最终的结构如图1所示（与当前大部分中心化的分布式系统类似）。

图1 TDSQL架构

系统由三个模块组成：Scheduler、Agent、网关，三个模块的交互都是通过ZooKeeper完成，极大简化了各个节点之间的通信机制，相对于第二代HOLD的开发简单了很多。

Scheduler作为集群的管理调度中心，主要功能包括：

管理set，提供创建、删除set、set内节点替换等工作；
所有的DDL操作统一下发和调度；
监控set内各个节点的存活状态，当set内主节点故障，发起高一致性主备切换流程；
监控各个set的CPU、磁盘容量、各个表的资源消耗情况，必要的时候自动发起扩容流程；
Scheduler自身的容灾通过ZooKeqzer的选举机制完成，保证中心控制节点无单点。

Agent模块负责监控本机MySQL实例的运行情况，主要功能包括：

用短连接的方式周期性访问本机的MySQL实例，检测是否可读、可写，若发生异常，会将异常信息上报到ZooKeeper，最终会由上面描述的Scheduler模块检测到这个异常情况，从而发起容灾切换；
检测主备复制的执行情况，会定期上报主备复制的延时和延迟的事务数，若发生了主备切换，自动向新主机重建主备，因此MySQL的主备不需要DBA干预，对于新增的实例会自动采用xtrabackup通过主机自动重建数据；
检测MySQL实例的CPU利用率和各个表的请求量、数据量、CPU利用率，上报到ZooKeeper，ZooKeeper通过全局的资源情况抉择如何扩容、缩容；
监控是否有下发到自身的扩容任务，如有则会执行扩容流程（下面会有描述）；
监控是否要发生容灾切换，并按计划执行主备切换流程。

网关基于MySQL Proxy开发，在网络层、连接管理、SQL解析、路由等方面做了大量优化，主要特点和功能如下：

解析SQL，将识别出的DDL语句直接存到ZooKeeper，让Keeper来统一调度；
Watch ZooKeeper的路由信息，拉取最新的路由表保存到本地文件和内存；
将SQL请求路由到对应的set，支持读写分离；
对接入的IP、用户名、密码进行鉴权；
记录完整的SQL执行信息，与秒级监控平台对接完成实时的SQL请求的时耗，成功率等指标监控分析；
对count、distinct、sum、avg、max、min、order by、group by等聚合类SQL一般需要访问后端的多个set，网关会分析结果并做合并再返回，暂不支持跨set join和分布式事务；
网关无状态，既支持与业务部署到一起，也可以独立部署（可通过TGW或者LVS做容灾）。

自动扩容机制

目前，针对MySQL的扩容，一般有下面两种策略。

垂直扩容。一般通过升级硬件来实现，比如更换更好的CPU，将传统的sas盘换成FusionIO卡这类，然后针对新硬件调整好参数，在硬件结构变化比较大的时候，性能甚至能达到上十倍的提升。但垂直扩容有比较大的局限，就是这种模式随着业务的突增还是比较容易达到瓶颈，特别是面对互联网海量用户的时候，所以在互联网应用场景下，一般仅将垂直扩容当做一个辅助的手段。
水平扩容。常用的有2种方法，一是不同的库或者表部署到不同的实例，二是一张表需要根据某个字段拆分到不同的字表中（数据分片），这种策略在互联网系统中非常常见，很多系统会将这2种水平扩容的方法结合起来使用；

通过上述2种扩容方法的比较，为了应对海量扩展的需求，应该是重点选用水平扩容的方法。但水平扩容的实现一般对业务是有感知的，比如采用什么规则来拆表，拆开的表放到哪些节点，如果某个子表还有瓶颈应该怎么扩容，扩容是否还需要业务配合等等这些事情如果全部交给业务会比较繁琐，因此这些需求应该尽量全部交给TDSQL自身来完成，对业务完全透明。

分表逻辑

在TDSQL中，每个表（逻辑表）可能会拆分成多个子表（建表的时候通过在建表语句中嵌入注释的方式提供一个shard字段名，最多会拆分出1W个子表），每个子表在MySQL上都是一个真实的物理表，这里称为一个shard，因此一张表的数据可能会按这样的方式分布在多个Set中，如图2所示

图2 TDSQL的逻辑表

每个SQL请求到达网关之后，网关会做词法和语法解析，重点会解析出shard字段，如果带了shard字段就可以直接查询路由表并发送到某个具体的set中。计费的OLTP类业务99%的请求都会带上shard字段；如果某笔请求没有shard字段，查询路由之后会将请求发送到所有的shard对应的set中，并对所有返回的结果做一些聚合运算。

扩容流程

上面描述了shard的方式，但是这样的shard结构不是固定不变的，当Scheduler检测到某个set，某个表的CPU、磁盘超过阈值之后就会启动扩容流程。

这里描述下具体的扩容流程。

扩容过程中一般都要尽量避免影响业务，目前来看存在2种比较成熟的策略。

策略1先切后搬：先修改路由，将需要迁走的数据的请求直接发送到新set，在新set交易过程中如发现本地的数据不存在，则去原set拉取数据，然后再通过一些离线的策略将要迁移的数据全量再搬迁一次，HOID平台就是采用这样的策略。

策略2先搬后切：让请求继续在原set交易，扩容程序首先记录一个binlog位置点，并将源set中符合迁移条件的数据全部迁移出去，最后再将搬迁过程中新增的binlog追完，最后修改路由规则，将请求发送到新set。

综合来看，策略1最大的优点是假如是因为压力大做的迁移，可能很快就能将部分请求发送新set了，实现对原set的压力分担；策略2实现上在最后的追路由阶段需要更多的精细化控制，实现会稍微复杂点，但策略2有个非常大的好处就是扩容过程中回滚非常方便，如有异常直接干掉扩容任务即可。

对于TDSQL这类数据库业务系统来说，策略1实现会非常麻烦，因为请求到达新set之后可能需要去源set拉取数据，这个需要对MySQL本身进行修改；另外假如一个批量更新的update操作，可能要往新老set都发送一次请求，比较复杂，所以最终选择了策略2。策略2会有更大的通用性，开发模式基本上可以统一到所有类似的系统。

下面描述采用策略2具体的扩容流程。假如要将Set1中的t_shard_1的数据迁移一半到Set4中的t_shard_4(1667-3333)。

图3 策略2的扩容流程

Scheduler首先在Set4中创建好表t_shard_4。

后将扩容任务下发到Set1中的agent模块，agent检测到扩容任务之后会采用mysqldump+where条件的方式将t_shard_1中shard号段为1667-3333的记录导出来并通过管道用并行的方式插入到Set4（不会在本地存文件，避免引起过多的IO），用mysqldump导出镜像的时候会有一个binlog位置。

从mysqldump记录的binlog位置开始读取binlog并插入到到Set4，追到所有binlog文件末尾的时候（这需要一个循环，每次循环记录从开始追binlog截止到追到文件结尾消耗的时间，必须保证追单次循环要在几秒之内完成，避免遗留的binlog太多导致最后一次追binlog消耗太多的时间，从而影响业务过久），对原来的表t_shard_1重命名t_shard_5，此时针对这个表不会再有新请求，若还有请求过来都会失败，然后再追一次binlog到文件结尾（因为上面的循环保证了追binlog不会太耗时间了，所以此次会快速完成），然后上报状态到ZooKeeper，表明扩容任务完成。

Scheduler收到扩容完成的信息之后会修改路由表，最后由网关拉取到新路由完成整体的扩容；从表重命名开始到网关拉取到新路由，这段时间这个原始shard不可用，从我们测试结果来看这个不可用的时间是200毫秒左右；如果某个网关异常，拉取不到新路由，继续访问老表t_shard_1会一直失败，这样就可以保证数据的一致性。

容灾机制

对于TDSQL来说，我们希望容灾做到自动切换，自动恢复，主备一致性（保证业务提交的事务在切换过程不丢失），跨IDC容灾。

【MySQL异步复制】

在MySQL发展的早期，就提供了异步复制的技术，只要写的压力不是特别大，在网络条件较好的情况下，发生主备切换基本上能将影响控制到秒级别，因此吸引了很多开发者的关注和使用。但这套方案提供的一致性保证，对于计费或者金融行业是不够的。

图4是异步复制的大致流程，很显然主机提交了binlog就会返回给业务成功，没有保证binlog同步到了备机，这样在切换的瞬间很有可能丢失这部分事务。

图4 异步复制

【MySQL半同步复制】

到了MySQL 5.5版本的时候，Google提供了一个半同步半异步的插件，确保必须收到一个备机的应答才让事务在主机中提交；当备机应答超时的情况下，强同步就会自动退化成异步模式（这也是半同步半异步名字的由来）。

图5 半同步复制

这套方案相对异步复制，在数据的可靠性方面确实好很多，在主机本身故障的情况下，基本能保证不丢失事务（因为最后一个事务，至少有一个备机上存在），但一旦退化成异步复制就回到过去了。TDSQL没直接采用这套方案，是因为：在主备跨IDC（ping延迟2-3毫秒）时性能非常很低。

【Cluster方案】

除了上面的方案外，开源社区还有三个Cluster解决方案，分别是Oracle的NDB引擎、Percona XtraDB Cluster和MariaDB Galera Cluster，从公开资料的性能对比上来看，后2者在性能和系统灵活性等方面都强于NDB（同时采用NDB意味着也放弃了InnoDB引擎，NDB主要是基于全内存的，并且需要高速网络环境支持，所以不考虑了）；Percona XtraDB Cluster和MariaDB Galera Cluster强同步机制的底层都是采用Galera这套强同步的架构。MariaDB Galera Cluster具有如下非常吸引人的特性：

MariaDB Galera Cluster 是一套在MySQL InnoDB存储引擎上面实现multi-master及数据实时同步的系统架构，业务层面无需做读写分离工作，数据库读写压力都能按照既定的规则分发到各个节点上去；
同步复制Synchronous replication：保证节点间数据一致性；
Active-active multi-master拓扑逻辑：多主的拓扑结构，可以认为没有备机的概念；
可对集群中任一节点进行数据读写：假如一个set有3个节点，则3个节点可以同时读写，上次完全不用关心主备切换和读写分离；
自动成员控制，故障节点自动从集群中移除；
自动节点加入；
真正并行的复制，基于行级：同一个表可以在集群中任何节点更新，支持不带where条件，但一次更新的记录条数有限制；
每个节点都包含完整的数据副本。

目前来看，Galera是一套相当完美的方案。但是，在跨IDC的性能测试中，其性能下降比较大，另外，实现方案也比较复杂，目前对它的代码理解还不够透彻，所以暂时没有在计费领域大范围推广使用。但我相信这个方向是对的，有吸引力的，随着后续Galera越来越完善，我们对它研究得越透彻，也许有一天会采用这套方案。

【性能测试和分析】

上面的三种复制模式对比测试，数据如图6所示。

图6 三种复制模式的对比

从图6的数据可以看出，半同步和Galera模式对性能的损耗还是非常大的，Galera的毛刺尤其严重，所以在跨IDC环境下还不是适合计费这样对延迟要求非常低的场景。

为什么性能损耗会这么严重呢？这个看明白MySQL的网络模型就清楚了。外界可查的MySQL最早的公开版本应该是1996年的3.1.1.1版本，这么多年来，网络模型基本上变化不大，与Apache有点类似，有点区别的是MySQL采用的是每个连接一个线程的模型，这套模型最大的好处就是开发特别简单，线程内部都是同步调用，只要不访问外部接口，支撑每秒几百上千的请求量也基本够用，因为大部分情况下IO是瓶颈。不过随着当前硬件的发展，尤其是SSD、FusionIO的出现，IOPS从200+/s进化到几十万甚至百万次/s，IO基本上不再是瓶颈，若再采用这套模型并采用阻塞的方式调用延迟较大的外部接口，则CPU都会阻塞在等网络应答上了，性能自然上不去。

不过在MySQL5.6企业版和MariaDB、Percona中都引入了线程池，使得网络模型灵活了很多，图7是简化后的对比模型。

图7 简化的对比模型

TDSQL采用的强同步方案

从上面的分析可知，半同步半异步是比较轻量级的高一致性容灾方案，但受限于已有的同步网络模型，CPU利用不起来。我们如果在线程池基础之上做一些修改，参考半同步的思路就可以实现一个高性能的强同步方案。

目前的做法是采用与Linux内核处理中断的思路：将上面线程池模型的第三个环节（执行SQL的逻辑）拆成两个部分：

上半部分：任务执行到写binlog为止，然后将会话保存到session中，接着执行下一轮循环去处理其他请求了，这样就避免让线程阻塞等待应答了；
然后：MySQL自身负责主备同步的dump线程会将binlog立即发送出去，备机的IO线程收到binlog并写入到relay log之后，再通过UDP给主机一个应答；
在主机上，开一组线程来处理应答，收到应答之后找到对应的会话，执行下半部分的commit，send应答，绑定到epoll等操作。绑定到epoll之后这个连接又可以被其他线程检测到并执行了。

改造后性能提升明显，如图8所示。

图8 改造后的性能

数据高可用性保障机制

除上述强同步机制外，TDSQL还做了以下增强，以提升数据的可用性。

推荐一个set最少配置3个跨IDC的节点，可以按业务的要求对备机开放查询服务。
支持灵活增加节点，比如觉得3个节点还不够，可以非常方便地增加节点。TDSQL会自动完成数据的全量和增量复制，此处主要依赖Xtrabackup实现物理复制，性能测试数据表明：一个小时大概可以拷贝500GB数据到新节点。那么对于Z3（1.1TB盘，一般最多用800GB左右），新加入的节点大概1.5个小时左右就有了全量数据，此功能也可以用在坏盘等情况下替换节点的时候使用，非常方便。
细心的同学可能会发现上面的强同步还有点小缺陷：比如主机用kill -9杀掉，那么可能写了binlog但没有来得及发送到远端，此时当然也不会返回给业务成功，备机上不存在这笔数据，但主机起来之后会多出来这笔事务。我们的做法是对新增的事务根据row格式的binlog做闪回，当然回退不了的比如drop table之类的，就直接提醒运维手工确认是否清除数据库，然后会由Xtrabakcup机制自动从新的备机全量拉取数据重构。
节点的监控通过跨IDC部署的ZooKeeper来保证，并且主备切换由一套自动化的严格流程来保证。

接下来的方向

当将高一致性容灾、高可用性、自动容量伸缩做实后，随着业务的接入，集群的规模会越来越大，TDSQL必将会更加依赖实时的资源调度、隔离框架，因此有必要研究如何将TDSQL与Docker结合起来。
如前所述，Galera集群是个非常好的发展方向，我们会持续研究并实践。
目前大部分MySQL还在使用单个连接单线程模型，线程池也刚起步，以后随着大家对性能要求越来越高，这块也许可以继续突破，比如结合线程池+协程也许是个很好的方向，如果真能引入协程，也许为MySQL增加调用外部接口的结构会灵活很多。
TDSQL将数据拆是拆的彻底了，但作为完整的分布式数据库、合也需要考虑，比如跨库少量记录的join，规模受限的分布式事务等，目前的做法是数据按小时入TDW，在TDW上做OLAP分析。

作者简介：雷海林，2007年加入腾讯，10年以上的Linux后台Server开发经验，目前主要从事分布式Cache、实时大数据处理引擎、分布式MySQL(TDSQL)设计和开发工作。

本文选自程序员电子版2015年6月A刊，该期更多文章请查看这里。2000年创刊至今所有文章目录请查看程序员封面秀。欢迎订阅程序员电子版（含iPad版、Android版、PDF版）。

原文地址：http://www.csdn.net/article/2015-06-02/2824824

【现代后端架构演进：微服务设计与云原生】蝉叫醒了夏天架构云原生微服务
现代后端架构演进：微服务设计与云原生一、架构演进历程1.单体架构到分布式系统单体架构瓶颈典型问题：代码耦合（代码行超百万级）、扩展困难（垂直扩容成本>105>10^5>105美元/节点）、技术栈固化故障扩散：数据库连接池耗尽导致全站瘫痪SOA（面向服务架构）引入ESB（企业服务总线），服务间通信延迟增加30-50ms典型案例：电信计费系统（服务拆分粒度以模块为单位）2.微服务革命（2014-）核心
OpenHarmony 开源硬件学习全指南：从入门到实战琢磨先生David 开源 harmonyos
OpenHarmony开源硬件学习全指南：从入门到实战随着万物互联时代的到来，OpenHarmony作为面向全场景的开源分布式操作系统，正逐步成为智能硬件开发的重要技术底座。本文将系统性地解析OpenHarmony开源硬件的学习路径、开发工具链及行业实践方案，为开发者提供从环境搭建到项目落地的完整指引。一、构建开发环境：混合平台的智慧选择OpenHarmony采用Windows与Linux混合开发
【RabbitMQ】超详细Windows系统下RabbitMQ的安装配置 m0_74825074 面试学习路线阿里巴巴 rabbitmq windows 分布式
RabbitMQ是一个开源的消息队列中间件，广泛用于分布式系统中的异步消息传递。它支持多种消息协议，易于扩展，功能强大。本文将详细介绍如何在Windows系统下安装和配置RabbitMQ，包括所需的依赖项、安装步骤、基本配置和常见问题解决方案。目录什么是RabbitMQ？安装前的准备2.1系统要求2.2安装ErlangRabbitMQ的安装步骤3.1下载RabbitMQ3.2安装RabbitMQ配
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
MySQL数据库基本命令 Java从零开始数据库 mysql
1.CMD链接数据库：mysql-uroot-p2.打开全部数据库：showdatabases;3.切换数据库:use（school库）；4.显示数据库中所有表的信息：describe（student表）；5.查看数据库中所有的表：showtables；6.创建一个数据库：createdatabase（westos库）；7.SHOWCREATEDATABASEgoods：查看创建goods数据库的
大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB 爱串门的小马驹万卡大规模集群大模型训练异构集群大规模集群分布式大模型训练
视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速
dubbo服务META-INF.dubbo文件夹作用 zhglhy dubbo java apache
META-INF.dubbo文件夹是ApacheDubbo框架中的一个重要目录，通常用于存放Dubbo的SPI（ServiceProviderInterface）扩展配置文件。Dubbo是一个高性能的JavaRPC框架，支持分布式服务治理，而SPI机制是Dubbo实现可扩展性的核心设计之一。1.SPI机制简介SPI是Java提供的一种服务发现机制，允许框架在运行时动态加载实现类。Dubbo对其进行
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
存储系统怎么选？分布式存储vs.集中式存储的区别在哪？东方念分布式
在当今的数字化时代，安防监控已成为维护社会秩序和公共安全的重要手段。随着监控设备的普及和监控数据的不断增加，如何高效、安全地存储和管理这些视频数据，成为了安防行业面临的重要挑战。EasyCVR视频存储系统凭借其卓越的性能和灵活的架构，为安防行业提供了一个理想的解决方案。一、EasyCVR视频监控存核心优势EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台，拥有远程视频监控
Q&A：备份产品的存储架构采用集中式和分布式的优劣？云祺vinchin 技术分享架构分布式网络运维大数据
分布式和集中式各有优劣，且这两者下面的存储类型也都不尽相同，从备份与恢复的数据层面来看，这两者存储相结合才是优解。众所周知，备份数据只存一份还只放在一个存储里是不现实的。假设把备份数据访问频率、生命周期等参数分为三个等级（热、温、冷）。很显然，以分布式存储的优点用来存放热备份数据是非常合适的，能满足大规模数据在备份与恢复时的高吞吐需求，同时也能提供并行计算的能力，提供高效的目标端数据压缩和数据重删
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从零到一：Redis Cluster部署配置全流程详解，轻松搞定高可用分布式缓存！ IT成长日记 #数据库技术解析与应用实践 Redis Cluster redis 缓存集群
RedisCluster是Redis官方提供的分布式解决方案，它通过数据分片（Sharding）和主从复制（Replication）来实现高可用性和横向扩展。RedisCluster能够在多个节点之间自动分配数据，并且在节点故障时自动进行故障转移，确保系统的高可用性。本文将详细介绍RedisCluster的部署和配置全流程，帮助读者快速搭建一个高可用的Redis集群。1RedisCluster概述
使用Spring Boot实现分布式任务调度 weixin_836869520 spring boot 分布式后端
使用SpringBoot实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！一、SpringBoot与分布式任务调度概述在分布式系统中，任务调度是一项关键的技术，它能够有效地管理和调度系统中的各种任务，确保任务能够按时执行并具有高可用性和可靠性。SpringBoot作为Java领域流行的开发框架，提供了多种实现分布式任务调度的解决方案。二、SpringB
在Spring Boot中实现分布式任务调度微赚淘客系统开发者 spring boot 分布式后端
在SpringBoot中实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！使用SpringBoot与Quartz实现分布式任务调度1.引入依赖在SpringBoot项目中，首先需要引入Quartz和相关依赖：org.springframework.bootspring-boot-starter-quartz2.配置Quartz在SpringBoot的配
基于 Redis 的分布式锁实现与优化 Blossom.118 分布式系统与高性能计算领域 redis 分布式数据库 python3.11 算法数据结构推荐算法
在分布式系统中，锁机制是保障数据一致性和并发控制的关键技术之一。Redis作为一种高性能的内存数据库，常被用于实现分布式锁。本文将详细介绍基于Redis的分布式锁的实现原理、代码示例以及优化策略，帮助读者更好地理解和应用这一技术。一、分布式锁的概念与需求在单机系统中，锁的实现相对简单，可以通过操作系统的同步机制或编程语言提供的锁机制来完成。然而，在分布式系统中，多个进程或线程可能运行在不同的机器上
在Spring Boot中集成分布式任务调度微赚淘客机器人开发者联盟@聚娃科技 spring boot 分布式后端
在SpringBoot中集成分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！1.引言分布式任务调度是现代企业应用中常见的需求，特别是在微服务架构中，不同服务可能需要定时执行任务、定时触发某些业务逻辑或者周期性地处理数据。SpringBoot提供了多种方式来实现分布式任务调度，包括使用Quartz、Spring自带的任务调度以及集成第三方调度中心等。2.使
深入解析 Redis 实现分布式锁的最佳实践煜bart 机器人 redis python
前言在分布式系统中，多个进程或线程可能会同时访问同一个共享资源，这就可能导致数据不一致的问题。为了保证数据的一致性，我们通常需要使用分布式锁。Redis作为高性能的内存数据库，提供了一种简单高效的方式来实现分布式锁。本文将深入探讨如何使用Redis来实现分布式锁，并介绍一些优化技巧和最佳实践。---一、为什么需要分布式锁？在单机环境下，我们可以使用synchronized、Lock等方式来控制并发
基于Spring Boot的分布式任务调度实践 Blossom.118 分布式系统与高性能计算领域 wpf spring boot java 后端分布式 spring 开发语言
在现代的分布式系统中，任务调度是一个常见的需求。无论是定时任务的执行，还是根据业务逻辑动态触发的任务，都需要一个高效、可靠的调度框架来管理。SpringBoot作为目前最流行的Java开发框架之一，提供了强大的依赖管理和快速开发的能力，结合分布式任务调度框架，可以极大地提升开发效率和系统的可维护性。本文将介绍如何基于SpringBoot实现一个分布式任务调度系统，主要涉及Elastic-Job框架
鸿蒙开发工程师简历项目撰写全攻略谢道韫689 鸿蒙随笔 harmonyos 华为
一、项目结构的黄金法则建议采用「4+1」结构：项目背景（业务价值）+技术架构（鸿蒙特性）+核心实现（技术难点）+个人贡献（量化成果）+附加价值（延伸影响）二、鸿蒙特色技术点提炼技巧鸿蒙核心技术技术维度具体实现案例量化成果示例分布式软总线自定义协议实现家电设备低功耗连接连接成功率从89%提升至97%ArkUI框架基于TS扩展实现动态UI模板引擎开发效率提升40%，代码量减少60%原子化服务实现天气服
MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne
Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种
分布式中间件：Redisson 入门和分布式锁顾北辰20 分布式中间件分布式中间件 redisson
分布式中间件：Redisson入门和分布式锁在分布式系统的开发中，处理并发问题是一个常见且具有挑战性的任务。为了确保数据的一致性和完整性，我们常常需要使用分布式锁。Redisson作为一个强大的分布式Java驻内存数据网格（In-MemoryDataGrid）中间件，为我们提供了简单且高效的分布式锁解决方案。本文将带你入门Redisson，并介绍如何使用它实现分布式锁。1.引入Redisson依赖
TensorFlow和Pytorch在功能上的区别以及优势 Honeysea_70 #算法 tensorflow pytorch 人工智能
功能上的区别1.计算图TensorFlow：使用静态计算图（StaticGraph）。在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。计算图是动态构建和执行的，每次迭代都会重新构建图。优点是调试方便，
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析：分布式能力与跨设备协作实战一键难忘 harmonyos 分布式华为 HarmonyOS Next
鸿蒙技术分享：HarmonyOSNext深度解析：分布式能力与跨设备协作实战随着万物互联时代的到来，操作系统作为连接设备、应用与用户体验的核心，扮演着不可或缺的角色。华为最新发布的HarmonyOSNext（鸿蒙操作系统下一代版本）不仅在技术架构上实现了颠覆性升级，更在生态体验上迈向了一个新的高度。本文将从技术架构、生态优势和开发实践三个方面深入探讨HarmonyOSNext的技术特点，并通过一个
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
鸿蒙系统架构解析：深入理解分层设计与功能实现斯陀含 harmonyos 架构华为
鸿蒙系统架构解析：深入理解分层设计与功能实现鸿蒙操作系统(HarmonyOS)是华为推出的全新分布式操作系统，其独特的架构设计是其核心竞争力之一。本文将深入探讨鸿蒙系统的分层架构，从内核层到应用层，逐层剖析其功能和作用，并结合实例帮助读者更好地理解鸿蒙系统的设计理念。一、鸿蒙系统架构概览鸿蒙系统采用分层架构设计，将系统划分为四个层次：内核层、系统服务层、框架层和应用层。这种分层架构具有以下优势：模
分布式限流方案：基于 Redis 的令牌桶算法实现代码怪兽大作战后端分布式 redis 算法 java 令牌桶接口限流
分布式限流方案：基于Redis的令牌桶算法实现前言一、原理介绍：令牌桶算法二、分布式限流的设计思路三、代码实现四、方案优缺点五、适用场景总结前言在分布式场景下，接口限流变得更加复杂。传统的单机限流方式难以满足跨节点的限流需求，因此需要一种分布式限流方案。这里介绍一种基于Redis和Redisson实现的令牌桶算法分布式限流方案。一、原理介绍：令牌桶算法令牌桶算法是一种用于控制流量的经典算法，其基本
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

分布式MySQL数据库TDSQL架构分析

你可能感兴趣的:(分布式MySQL数据库TDSQL架构分析)