浅谈分布式数据库

一 分布式数据库出现的场景:

1.单表数据量爆炸,>1000w,>1亿,>10亿,各种数据操作(CRUD)效率很低 。 关系型数据库在大于一定数据量的情况下检索性能会急剧下降。在面对互联网海量数据情况时,所有数据都存于一张表,显然会轻易超过数据库表可承受的数据量阀值。这个单表可承受的数据量阀值,需根据数据库和并发量的差异,通过实际测试获得。

2.单机数据库的瓶颈问题,处理不了高强度io。现代企业程序的瓶颈问题是数据库的瓶颈问题,所以数据库只做存储用,不再使用触发器,事物;

3.为了方便扩展,动态增加数据库节点,保证扩展性好

4.不同业务对应不同业务数据库,即使某个数据库挂了,不影响其他数据库对应的服务使用,服务高可用。

5.数据备份,数据最重要。

 

二 一些基本概念

单库:单机数据库 所有表存在一个库里,

分片(sharding),分片解决扩展性问题,属于水平拆分,引入分片,就引入了数据路由分区键的概念。分表解决的是数据量过大的问题,分库解决的是数据库性能瓶颈的问题。

分组(group),分组解决可用性问题,分组通常通过主从复制(replication)的方式实现

互联网公司数据库实际软件架构是(大数据量下):又分片,又分组

单纯的分表虽然可以解决数据量过大导致检索变慢的问题,但无法解决过多并发请求访问同一个库,导致数据库响应变慢的问题。所以通常水平拆分都至少要采用分库的方式,用于一并解决大数据量和高并发的问题。这也是部分开源的分片数据库中间件只支持分库的原因。

​ 但分表也有不可替代的适用场景。最常见的分表需求是事务问题。同在一个库则不需考虑分布式事务,善于使用同库不同表可有效避免分布式事务带来的麻烦。目前强一致性的分布式事务由于性能问题,导致使用起来并不一定比不分库分表快,分局也无需要,大所述只需要保证事物的最终一致性。分表的另一个存在的理由是,过多的数据库实例不利于运维管理。

 

如何实现分库分表(后面去研究一致性raft算法)

​ 1) dao层,首先通过分区键算出库名表名(如shardKey%shardNum 算出来表index如y,然后y/(shardNum/sourceNum)=x,y是表下标,x是库下标)。 
​ 2) 把source从spring容器中拿出来,把表名当参数传进去,拼成分片后的sql。 
​ 3) 思路大概是(select … from order where … -> 先拿到db_x的source 然后 select … from order_y where …)

 

Cobar介绍

Cobar是阿里巴巴(B2B)部门开发的一种关系型数据的分布式处理系统,它可以在分布式的环境下看上去像传统数据库一样为您提供海量数据服务。那么具体说说我们为什么要用它,或说cobar--能干什么?以下是我们业务运行中会存在的一些问题:
1.随着业务的进行数据库的数据量和访问量的剧增,需要对数据进行水平拆分来降低单库的压力,而且需要高效且相对透明的来屏蔽掉水平拆分的细节。
2.为提高访问的可用性,数据源需要备份。
3.数据源可用性的检测和failover。
4.前台的高并发造成后台数据库连接数过多,降低了性能,怎么解决。 
针对以上问题就有了cobar施展自己的空间了,cobar中间件以proxy的形式位于前台应用和实际数据库之间,对前台的开放的接口是mysql通信协议。将前台SQL语句变更并按照数据分布规则转发到合适的后台数据分库,再合并返回结果,模拟单库下的数据库行为。

 

 

网上找到的关于cobar的一些不完美的地方:

Cobar不支持将一张表,例如test表拆分成test_1, test_2, test_3.....放在同一个库中,必须将拆分后的表分别放入不同的库来实现分布式。 
1) 不支持跨库情况下的join、分页、排序、子查询操作。 
2) SET语句执行会被忽略,事务和字符集设置除外。 
3) 分库情况下,insert语句必须包含拆分字段列名。 
4) 分库情况下,update语句不能更新拆分字段的值。 
5) 不支持SAVEPOINT操作。 
6) 暂时只支持MySQL数据节点。 
7) 使用JDBC时,不支持rewriteBatchedStatements=true参数设置(默认为false)。 
8) 使用JDBC时,不支持useServerPrepStmts=true参数设置(默认为false)。 
9) 使用JDBC时,BLOB, BINARY, VARBINARY字段不能使用setBlob()或setBinaryStream()方法设置参数。

 

你可能感兴趣的:(浅谈分布式数据库)