chenxianchong

分库分表——基本思路

前言

Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上，从而缓解单一数据库的性能问题。不太严格的讲，对于海量数据的数据库，如果是因为表多而数据多，这时候适合使用垂直切分，即把关系紧密（比如同一模块）的表切分出来放在一个server上。如果表并不多，但每张表的数据非常多，这时候适合水平切分，即把表的数据按某种规则（比如按ID散列）切分到多个数据库(server)上。当然，现实中更多是这两种情况混杂在一起，这时候需要根据实际情况做出选择，也可能会综合使用垂直与水平切分，从而将原有数据库切分成类似矩阵一样可以无限扩充的数据库(server)阵列。

需要特别说明的是：当同时进行垂直和水平切分时，切分策略会发生一些微妙的变化。比如：在只考虑垂直切分的时候，被划分到一起的表之间可以保持任意的关联关系，因此你可以按“功能模块”划分表格，但是一旦引入水平切分之后，表间关联关系就会受到很大的制约，通常只能允许一个主表（以该表ID进行散列的表）和其多个次表之间保留关联关系，也就是说：当同时进行垂直和水平切分时，在垂直方向上的切分将不再以“功能模块”进行划分，而是需要更加细粒度的垂直切分，而这个粒度与领域驱动设计中的“聚合”概念不谋而合，甚至可以说是完全一致，每个shard的主表正是一个聚合中的聚合根！这样切分下来你会发现数据库分被切分地过于分散了（shard的数量会比较多，但是shard里的表却不多），为了避免管理过多的数据源，充分利用每一个数据库服务器的资源，可以考虑将业务上相近，并且具有相近数据增长速率（主表数据量在同一数量级上）的两个或多个shard放到同一个数据源里，每个shard依然是独立的，它们有各自的主表，并使用各自主表ID进行散列，不同的只是它们的散列取模（即节点数量）必需是一致的.

常用的分库分表中间件

简单易用的组件：

当当sharding-jdbc
蘑菇街TSharding

强悍重量级的中间件：

sharding
TDDL Smart Client的方式（淘宝）
Atlas(Qihoo 360)
alibaba.cobar(是阿里巴巴（B2B）部门开发)
MyCAT（基于阿里开源的Cobar产品而研发）
Oceanus(58同城数据库中间件)
OneProxy(支付宝首席架构师楼方鑫开发)
vitess（谷歌开发的数据库中间件）

分库分表需要解决的问题

1、事务问题

解决事务问题目前有两种可行的方案：分布式事务和通过应用程序与数据库共同控制实现事务下面对两套方案进行一个简单的对比。

方案一：使用分布式事务

优点：交由数据库管理，简单有效
缺点：性能代价高，特别是shard越来越多时

方案二：由应用程序和数据库共同控制

原理：将一个跨多个数据库的分布式事务分拆成多个仅处于单个数据库上面的小事务，并通过应用程序来总控各个小事务。
优点：性能上有优势
缺点：需要应用程序在事务控制上做灵活设计。如果使用了spring的事务管理，改动起来会面临一定的困难。

2、跨节点Join的问题

只要是进行切分，跨节点Join的问题是不可避免的。但是良好的设计和切分却可以减少此类情况的发生。解决这一问题的普遍做法是分两次查询实现。在第一次查询的结果集中找出关联数据的id,根据这些id发起第二次请求得到关联数据。

3、跨节点的count,order by,group by以及聚合函数问题

这些是一类问题，因为它们都需要基于全部数据集合进行计算。多数的代理都不会自动处理合并工作。解决方案：与解决跨节点join问题的类似，分别在各个节点上得到结果后在应用程序端进行合并。和join不同的是每个结点的查询可以并行执行，因此很多时候它的速度要比单一大表快很多。但如果结果集很大，对应用程序内存的消耗是一个问题。

4、数据迁移，容量规划，扩容等问题

来自淘宝综合业务平台团队，它利用对2的倍数取余具有向前兼容的特性（如对4取余得1的数对2取余也是1）来分配数据，避免了行级别的数据迁移，但是依然需要进行表级别的迁移，同时对扩容规模和分表数量都有限制。总得来说，这些方案都不是十分的理想，多多少少都存在一些缺点，这也从一个侧面反映出了Sharding扩容的难度。

5、事务

分布式事务

参考：关于分布式事务、两阶段提交、一阶段提交、Best Efforts 1PC模式和事务补偿机制的研究

优点

基于两阶段提交，最大限度地保证了跨数据库操作的“原子性”，是分布式系统下最严格的事务实现方式。
实现简单，工作量小。由于多数应用服务器以及一些独立的分布式事务协调器做了大量的封装工作，使得项目中引入分布式事务的难度和工作量基本上可以忽略不计。

缺点

系统“水平”伸缩的死敌。基于两阶段提交的分布式事务在提交事务时需要在多个节点之间进行协调,最大限度地推后了提交事务的时间点，客观上延长了事务的执行时间，这会导致事务在访问共享资源时发生冲突和死锁的概率增高，随着数据库节点的增多，这种趋势会越来越严重，从而成为系统在数据库层面上水平伸缩的"枷锁"，这是很多Sharding系统不采用分布式事务的主要原因。

基于Best Efforts 1PC模式的事务

参考spring-data-neo4j的实现。鉴于Best Efforts 1PC模式的性能优势，以及相对简单的实现方式，它被大多数的sharding框架和项目采用。

事务补偿（幂等值）

对于那些对性能要求很高，但对一致性要求并不高的系统，往往并不苛求系统的实时一致性，只要在一个允许的时间周期内达到最终一致性即可，这使得事务补偿机制成为一种可行的方案。事务补偿机制最初被提出是在“长事务”的处理中，但是对于分布式系统确保一致性也有很好的参考意义。笼统地讲，与事务在执行中发生错误后立即回滚的方式不同，事务补偿是一种事后检查并补救的措施，它只期望在一个容许时间周期内得到最终一致的结果就可以了。事务补偿的实现与系统业务紧密相关，并没有一种标准的处理方式。一些常见的实现方式有：对数据进行对帐检查;基于日志进行比对;定期同标准数据来源进行同步，等等。

6、ID问题

一旦数据库被切分到多个物理结点上，我们将不能再依赖数据库自身的主键生成机制。一方面，某个分区数据库自生成的ID无法保证在全局上是唯一的；另一方面，应用程序在插入数据之前需要先获得ID,以便进行SQL路由。

一些常见的主键生成策略：

UUID

使用UUID作主键是最简单的方案，但是缺点也是非常明显的。由于UUID非常的长，除占用大量存储空间外，最主要的问题是在索引上，在建立索引和基于索引进行查询时都存在性能问题。

结合数据库维护一个Sequence表

此方案的思路也很简单，在数据库中建立一个Sequence表，表的结构类似于：

CREATE TABLE `SEQUENCE` (  
    `table_name` varchar(18) NOT NULL,  
    `nextid` bigint(20) NOT NULL,  
    PRIMARY KEY (`table_name`)  
) ENGINE=InnoDB

每当需要为某个表的新纪录生成ID时就从Sequence表中取出对应表的nextid,并将nextid的值加1后更新到数据库中以备下次使用。此方案也较简单，但缺点同样明显：由于所有插入任何都需要访问该表，该表很容易成为系统性能瓶颈，同时它也存在单点问题，一旦该表数据库失效，整个应用程序将无法工作。有人提出使用Master-Slave进行主从同步，但这也只能解决单点问题，并不能解决读写比为1:1的访问压力问题。

Twitter的分布式自增ID算法Snowflake

在分布式系统中，需要生成全局UID的场合还是比较多的，twitter的snowflake解决了这种需求，实现也还是很简单的，除去配置信息，核心代码就是毫秒级时间41位机器ID 10位毫秒内序列12位。

* 10---0000000000 0000000000 0000000000 0000000000 0 --- 00000 ---00000 ---000000000000

在上面的字符串中，第一位为未使用（实际上也可作为long的符号位），接下来的41位为毫秒级时间，然后5位datacenter标识位，5位机器ID（并不算标识符，实际是为线程标识），然后12位该毫秒内的当前毫秒内的计数，加起来刚好64位，为一个Long型。

这样的好处是，整体上按照时间自增排序，并且整个分布式系统内不会产生ID碰撞（由datacenter和机器ID作区分），并且效率较高，经测试，snowflake每秒能够产生26万ID左右，完全满足需要。

7、跨分片的排序分页

一般来讲，分页时需要按照指定字段进行排序。当排序字段就是分片字段的时候，我们通过分片规则可以比较容易定位到指定的分片，而当排序字段非分片字段的时候，情况就会变得比较复杂了。为了最终结果的准确性，我们需要在不同的分片节点中将数据进行排序并返回，并将不同分片返回的结果集进行汇总和再次排序，最后再返回给用户。如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bqLGozH1-1688718786483)(https://images.gitee.com/uploads/images/2019/0626/132225_ae1a8335_87650.png “屏幕截图.png”)]

上面图中所描述的只是最简单的一种情况（取第一页数据），看起来对性能的影响并不大。但是，如果想取出第10页数据，情况又将变得复杂很多，如下图所示：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RM6WsWcU-1688718786484)(https://images.gitee.com/uploads/images/2019/0626/132237_a5bd618b_87650.png “屏幕截图.png”)]

有些读者可能并不太理解，为什么不能像获取第一页数据那样简单处理（排序取出前10条再合并、排序）。其实并不难理解，因为各分片节点中的数据可能是随机的，为了排序的准确性，必须把所有分片节点的前N页数据都排序好后做合并，最后再进行整体的排序。很显然，这样的操作是比较消耗资源的，用户越往后翻页，系统性能将会越差。
那如何解决分库情况下的分页问题呢？有以下几种办法：

如果是在前台应用提供分页，则限定用户只能看前面n页，这个限制在业务上也是合理的，一般看后面的分页意义不大（如果一定要看，可以要求用户缩小范围重新查询）。

如果是后台批处理任务要求分批获取数据，则可以加大page size，比如每次获取5000条记录，有效减少分页数（当然离线访问一般走备库，避免冲击主库）。

分库设计时，一般还有配套大数据平台汇总所有分库的记录，有些分页查询可以考虑走大数据平台。

8、分库策略

分库维度确定后，如何把记录分到各个库里呢?

一般有两种方式：

根据数值范围，比如用户Id为1-9999的记录分到第一个库，10000-20000的分到第二个库，以此类推。
根据数值取模，比如用户Id mod n，余数为0的记录放到第一个库，余数为1的放到第二个库，以此类推。

优劣比较：

评价指标按照范围分库按照Mod分库

库数量前期数目比较小，可以随用户/业务按需增长前期即根据mode因子确定库数量，数目一般比较大

访问性能前期库数量小，全库查询消耗资源少，单库查询性能略差前期库数量大，全库查询消耗资源多，单库查询性能略好

调整库数量比较容易，一般只需为新用户增加库，老库拆分也只影响单个库困难，改变mod因子导致数据在所有库之间迁移

数据热点新旧用户购物频率有差异，有数据热点问题新旧用户均匀到分布到各个库，无热点

实践中，为了处理简单，选择mod分库的比较多。同时二次分库时，为了数据迁移方便，一般是按倍数增加，比如初始4个库，二次分裂为8个，再16个。这样对于某个库的数据，一半数据移到新库，剩余不动，对比每次只增加一个库，所有数据都要大规模变动。

补充下，mod分库一般每个库记录数比较均匀，但也有些数据库，存在超级Id，这些Id的记录远远超过其他Id，比如在广告场景下，某个大广告主的广告数可能占总体很大比例。如果按照广告主Id取模分库，某些库的记录数会特别多，对于这些超级Id，需要提供单独库来存储记录

9、分库数量

分库数量首先和单库能处理的记录数有关，一般来说，Mysql 单库超过5000万条记录，Oracle单库超过1亿条记录，DB压力就很大(当然处理能力和字段数量/访问模式/记录长度有进一步关系)。

在满足上述前提下，如果分库数量少，达不到分散存储和减轻DB性能压力的目的；如果分库的数量多，好处是每个库记录少，单库访问性能好，但对于跨多个库的访问，应用程序需要访问多个库，如果是并发模式，要消耗宝贵的线程资源；如果是串行模式，执行时间会急剧增加。

最后分库数量还直接影响硬件的投入，一般每个分库跑在单独物理机上，多一个库意味多一台设备。所以具体分多少个库，要综合评估，一般初次分库建议分4-8个库。

10、路由透明

分库从某种意义上来说，意味着DB schema改变了，必然影响应用，但这种改变和业务无关，所以要尽量保证分库对应用代码透明，分库逻辑尽量在数据访问层处理。当然完全做到这一点很困难，具体哪些应该由DAL负责，哪些由应用负责，这里有一些建议：

对于单库访问，比如查询条件指定用户Id，则该SQL只需访问特定库。此时应该由DAL层自动路由到特定库，当库二次分裂时，也只要修改mod 因子，应用代码不受影响。

对于简单的多库查询，DAL负责汇总各个数据库返回的记录，此时仍对上层应用透明。

11、使用框架还是自主研发

目前市面上的分库分表中间件相对较多，其中基于代理方式的有MySQL Proxy和Amoeba，基于Hibernate框架的是Hibernate Shards，基于jdbc的有当当sharding-jdbc，基于mybatis的类似maven插件式的有蘑菇街的蘑菇街TSharding，通过重写spring的ibatis template类是Cobar Client，这些框架各有各的优势与短板，架构师可以在深入调研之后结合项目的实际情况进行选择，但是总的来说，我个人对于框架的选择是持谨慎态度的。一方面多数框架缺乏成功案例的验证，其成熟性与稳定性值得怀疑。另一方面，一些从成功商业产品开源出框架（如阿里和淘宝的一些开源项目）是否适合你的项目是需要架构师深入调研分析的。当然，最终的选择一定是基于项目特点、团队状况、技术门槛和学习成本等综合因素考量确定的。

作者：jackcooper

链接：http://www.jianshu.com/p/32b3e91aa22c

Django 4.0常见问题及其解决方案汇总昏睡的大熊猫 django python
Django4.0，常见问题及其解决方案汇总前言当涉及Django4.0框架时，开发人员经常会面临各种挑战和问题。解决这些问题需要深入了解框架的功能和最佳实践。以下是针对Django4.0常见问题的解决方案汇总，涵盖了从安全性到性能优化的多个方面。这些解决方案旨在帮助开发人员更好地理解和应对在开发过程中可能遇到的困难，确保他们能够构建稳健、高效的Web应用程序。1.如何处理数据库迁移？2.如何处理
RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术 AI学习不迷路人工智能数据库 llama 语言模型 RAG 大模型 AI大模型
RAG：AI大模型联合向量数据库和Llama-index，助力检索增强生成技术在大模型爆发的时代，快速准确地从大量数据中检索出有价值的信息变得至关重要。检索增强生成（RAG）技术，结合了传统的信息检索和最新的大语言模型（LLM），不仅能够回答复杂的查询，还能在此基础上生成信息丰富的内容。RAG技术的核心在于其能够将大型语言模型的生成能力与特定数据源的检索相结合。这意味着，当模型面对用户提出的问题时
MySQL 查数据转Json 大乔乔布斯 mysql json 数据库
将数据库表里的字段查询出来并且连接成json格式的实现方法SELECTCONCAT('[',GROUP_CONCAT(JSON_OBJECT('key-name',col1,'keyname2',col2,……,'key-namen',coln)),']')asjson_resultFROMtablenamewherecol1=83结果会将查询的数据一行行用{}返回，行之间","分隔,最终结果[]
MySQL（1） memorycx mysql 数据库
数据库基础篇MYSQL概述SQL函数约束多表查询事务进阶篇存储索引索引SQL优化试图/存储过程/触发器锁InnoDB核心MySQL管理运维篇日志主从复制分库本表读写分离基础篇MySQL数据库概念：存储数据的仓库，数据是有组织的进行存储（DataBase，DB）数据库管理系统：操作和管理数据库的大型软件（DataManagementSystem，DBMS）SQL：操作关系型数据库的编程语言，定义了一
Python web框架——Django xiabe python python django web开发
简介django是一个免费的开源的pythonweb框架。它遵循了model-view-template（MVT）的架构模式。由DjangoSoftwareFoundation维护，一个以501©(3)非营利组织形式成立的独立组织。django的主要目标是简单的去开发一个复杂的数据库驱动的网站。该框架强调组件的可重用性和“可插拔性”、代码更少、低耦合、快速开发以及“不要重复自己”的原则。Pytho
MySQL时间戳与日期格式的相互转换 DfsnVue mysql 数据库
在MySQL数据库中，时间戳（timestamp）和日期格式（dateformat）是常用的数据类型。时间戳表示从1970年1月1日零时到特定日期时间的秒数，而日期格式则以年-月-日的形式表示日期。在MySQL中，我们可以使用函数来相互转换时间戳和日期格式。下面我将详细介绍如何进行这些转换，并提供相应的源代码示例。将时间戳转换为日期格式要将时间戳转换为日期格式，在MySQL中可以使用FROM_UN
Python SQLAlchemy库详解寒秋丶 Python python 开发语言数据库测试开发软件测试软件开发自动化测试
大家好，在Python生态系统中，SQLAlchemy库是一个强大的工具，为开发人员提供了便捷的方式来处理与数据库的交互。无论是开发一个小型的Web应用程序，还是构建一个大型的企业级系统，SQLAlchemy都能满足你的需求，并提供灵活性和性能上的优势。本文将带你深入探索SQLAlchemy库，从基础概念到高级用法，让你对其有一个全面的了解。一、介绍SQLAlchemy是Python中一个强大的开
ArcGIS连接达梦数据库创建空间数据库山雨同学数据库 arcgis
1.安装64位或32位达梦数据库；2.用DM管理工具连接数据库运行一下代码，创建DMGEO系统包。SP_INIT_GEO_SYS(1);3.若在本机使用ArcGIS连接，数据库安装的是64位数据库，必须安装32位的客户端（另建文件夹），将32位客户端的bin文件夹下文件复制到ArcGIS的bin文件夹下，重复文件跳过处理。远程连接，在安装ArcGIS的电脑安装安装32位DM客户端，同样将32位客户
Flask教程5：flask数据库SQLAlchemy Cachel wood Flask入门教程数据库 flask oracle python 阿里云开发语言 LLM
文章目录SQLAlchemy为什么使用ORM初始化数据库配置表模型的定义与数据库映射数据的增、删、改、查操作数据的添加数据的查找数据的修改数据的删除init_app作用详解SQLAlchemySQLAlchemy是一个基于Python实现的ORM(ObjectRelationalMapping，对象关系映射）框架。该框架建立在DBAPI(数据库应用程序接口系统)之上，使用关系对象映射进行数据库操作
【Innodb阅读笔记】之二进制文件 ꧁瀟洒辵１恛꧂ 笔记
一、什么是二进制文件二进制文件记录了对mySQL数据库执行修改的所有操作，不包括select和show这类操作，因为这类操作对数据库本身没有修改。但是，当执行修改操作，数据库没有发生变化，这类操作也会写入二进制文件中。通过配置参数log-bin开启二进制日志。如：#配置文件写入开启二进制指定文件名称为:mysql-bin#log-bin#不指定名称默认使用主机名log-bin=mysql-bin#
PHP代码段，用于连接MySQL数据库并查询数据黄聪的笔记本数据库 php mysql
connect_error){die("连接失败:".$conn->connect_error);}//SQL查询语句$sql="SELECTid,firstname,lastnameFROMMyGuests";$result=$conn->query($sql);if($result->num_rows>0){//输出数据while($row=$result->fetch_assoc()){ec
mysql存储函数小冯爱编程 mysql 数据库 sql
文章目录存储函数一、创建存储函数二、调用存储函数存储函数我们学过很多函数，使用这些函数可以对数据进行的各种处理操作，极大地提高用户对数据库的管理效率。MySQL支持自定义函数，定义好之后，调用方式与调用MySQL预定义的系统函数一样，比如AVG、COUNT、SUBSTR等。一、创建存储函数CREATEFUNCTION函数名(参数名参数类型,...)RETURNS返回值类型[characterist
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
mysql有rac吗_现在的国产数据库有类似于oracle Rac 的功能吗？ weixin_39623050 mysql有rac吗
有的，优炫软件今年就在软博会重磅推出了UXDBSuperRAC(超级实时应用集群)，发布了优炫数据库UXDB新版本。长久以来，大型联机交易系统，特别是作为典型应用的银行核心业务系统对数据库要求极为严苛，要保证业务连续性，零RTO、RPO，强一致性ACID、业务不可分割性需求。因此，基于共享存储概念的RAC模式和完全支持ACID强一致性的数据库系统，依然是银行业核心数据库系统的首选，优炫数据库Sup
宝塔面板部署java项目用公网ip或者域名都可以访问高明峰少 java java tomcat 数据库 web
和本地tomcat一样，war包放在webapps下，配置tomcat默认访问路径，即在host标签里加入这个analysis-tool-web-1.0-SNAPSHOT是你war包名字可以随意改，只要和webapps下名字相同就行，安装软件添加数据库打开数据库—>添加数据库，数据库名字，用户名密码等等，如果用户名不能用root，就在网站—>添加站点中创建站点同时添加数据库，在这里可以添加数据库名
数据库性能优化(sql优化)_索引详解04_深入理解B+树_yxy) yxy___ 数据库性能优化 sql
数据库性能优化_深入理解B+树1通过代码方式解释B+树1.1查找操作1.2插入操作1.3删除操作1.4更新操作2组合索引的查找逻辑2.1等值查找2.1范围查找1通过代码方式解释B+树B树索引在增删改操作时，底层结构会发生相应的变化，以保持树的平衡和有序性。下面通过简单的伪代码来讲解增删改查时，B+树的底层结构变化（目的是为了让大家深入理解B+树）1.1查找操作思路：1.从根节点开始查找。2.对于每
达梦HS搭建(DM-MYSQL)_yxy yxy___ 数据库达梦 mysql 数据库 dba database linux
dmhsDM到MYSQL搭建1环境准备1.1DM8数据库安装1.2MYSQL数据库安装1.2DMHS安装2源端部署2.1开启源端数据库归档和逻辑日志2.1.1开启归档2.1.2开启逻辑日志2.1.3注意2.2创建DDL触发器和辅助表2.3配置dmhs.hs2.4环境变量配置3目的端部署3.1创建同步用户并授权3.2配置dmhs.hs3.3环境变量配置3.4ODBC配置4同步测试4.1启动dmhs服
数据库性能优化(sql优化)_SQL执行计划01_yxy yxy___ 数据库性能优化 sql
数据库性能优化_SQL执行计划详解011执行计划简介1.1什么是sql执行计划?1.2执行计划解决了什么问题？1.3总结2执行计划的查看方式3执行计划完整示例4执行计划组成部份1执行计划简介1.1什么是sql执行计划?执行计划（ExecutionPlan），也称为查询计划或解释计划，是数据库在执行一个查询语句（如SQL查询）之前制定的详细步骤指南，包括使用哪些索引、连接顺序、操作顺序等信息。是一条
Mybatis如何书写黄袜子的小希 mybatis 数据库 java
kh下面我们开始书写mybatis①首先开始的时候创建数据库和表结构：createdatabasemybatis_demo;usemybatis_demo;CREATETABLE`user`(`id`int(11)NOTNULLauto_increment,`username`varchar(32)NOTNULLCOMMENT'用户名称',`birthday`datetimedefaultNULL
Redis vs. 其他数据库：深度解析，如何选择最适合的数据库？ moton2017 数据库 redis 缓存
一、如何为项目选择合适的数据库？选择合适的数据库是一个复杂的过程，需要综合考虑多个因素。下面几个维度来详细阐述：1.数据模型关系型数据库（RDBMS）：适用于高度结构化、关联性强的数据，如电商关系系统、金融系统。代表：MySQL、PostgreSQL。NoSQL数据库：文档型数据库（如MongoDB）：适用于灵活的、类似文档的数据，如内容管理系统。键值对数据库（如Redis）：适用于服务器、实时数
python实现dbscan 怎么就重名了算法 python 开发语言
python实现dbscan原理DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个定义：Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；核心对象：如
QT入门第十三天 QSqlite3数据库操作【增删改查精髓】 m0_67391907 面试学习路线阿里巴巴数据库 qt sqlite flask python
QT入门第十三天QSqlite3数据库操作第一章QT中数据库有关的类和方法【1】数据库有关的类【2】思路和步骤(1)安装数据库的驱动(2)设置数据库文件的名字(3)打开数据库(4)操作数据库–》增删改查(5)关闭数据库【3】其它的接口函数介绍(1)分析函数调用失败的原因【4】如何获取查询结果(1)获取查询结果(2)QVariant万能的数据类型【5】QT程序操作多个数据库文件，操作多个表格第二章源
滚雪球学Oracle[1.2讲]：Oracle数据库架构基础 bug菌¹ #滚雪球学Oracle oracle 数据库架构数据库
全文目录：前言一、Oracle数据库的物理存储结构详解1.1数据文件的组成与管理数据文件的主要特点：实际操作案例：添加数据文件数据文件管理的优化策略：1.2控制文件的作用与保护策略控制文件的主要作用：控制文件的保护策略：1.3重做日志文件的配置与优化重做日志文件的主要作用：重做日志文件的配置：实际操作案例：查看当前的重做日志组状态二、Oracle数据库的逻辑存储结构详解2.1表空间的类型与管理表空
QT +MYSQL+PYTHON,完成一个数据库表的增删改查 laocooon523857886 QT Python 数据库 qt mysql
ui_form.py#-*-coding:utf-8-*-##################################################################################FormgeneratedfromreadingUIfile'form.ui'####Createdby:QtUserInterfaceCompilerversion6.8.1#
C++和Python实现SQL Server数据库导出数据到S3并导入Redshift数据仓库 weixin_30777913 c++python 数据库数据仓库 sqlserver
用C++实现高性能数据处理，Python实现操作Redshift导入数据文件。在VisualStudio2022中用C++和ODBCAPI导出SQLServer数据库中张表中的所有表的数据为CSV文件格式的数据流，用逗号作为分隔符，用双引号包裹每个数据，字符串类型的数据去掉前后的空格，数据中如果包含双引号，则将一个双引号替换为两个双引号，创建gzip压缩文件，输出数据流写入到gzip压缩文件包中的
SSM框架探秘：Spring 整合 Mybatis 框架苏-言 mybatis spring java
搭建和测试MyBatis的环境：编写AccountMapper.xml映射配置文件：select*fromaccount;在web项目中编写SqlMapConfig.xml的配置文件，编写核心配置文件在AccountMapper接口中编写方法：publicinterfaceAccountMapper{publicListfindAll();}编写测试方法(此时数据库还没有数据)：@Testpubl
MyBatis最佳实践：提升数据库交互效率的秘密武器苏-言 mybatis 数据库
第一章：框架的概述：MyBatis框架的概述：MyBatis是一个优秀的基于Java的持久框架，内部对JDBC做了封装，使开发者只需要关注SQL语句，而不关注JDBC的代码，使开发变得更加的简单MyBatis通过XML或者注解的方式将要执行的各种Statement对象配置起来，通过Java对象和statement中SQL后，最终将结果已Java对象返回MyBatis采用了ORM的思想ORM思想：在
mysql的测试方案蚂蚁质量 mysql 数据库
1.测试目标与范围1.1性能测试目标MySQL性能测试旨在评估数据库在不同负载条件下的响应速度、吞吐量和资源利用率，确保其能够满足业务需求。响应时间：衡量查询和事务处理的延迟，目标是将平均响应时间控制在100毫秒以内，95%的查询响应时间不超过200毫秒。吞吐量：通过QPS（每秒查询次数）和TPS（每秒事务数）评估数据库的处理能力，目标是在高并发场景下达到QPS10000+、TPS5000+。资源
ORACLE parameter zhangtian0913 oracle 数据库 user session 存储 integer
一、用户的概念用户，即user,通俗的讲就是访问oracle数据库的“人”。在oracle中，可以对用户的各种安全参数进行控制，以维护数据库的安全性，这些概念包括模式(schema)、权限、角色、存储设置、空间限额、存取资源限制、数据库审计等。每个用户都有一个口令，使用正确的用户/口令才能登录到数据库进行数据存取。二、用户默认表空间表空间是信息存储的最大逻辑单位、当用户连接到数据库进行资料存储时，
Oracle角色 weixin_30409849
一、概述角色就是相关权限的命令集合，使用角色的主要目的就是为了简化权限的管理。假定有用户a，b，c为了让他们都拥有权限1、连接数据库2、在scott.emp表上select，insert，update如果采用直接授权操作，则需要进行12次授权。如果采用角色就可以简化首先将createsession，selectonscott.emp，insertonscott.emp，updateonscott.
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><