1、mongodb分片科普 (各种罗嗦)
Replica Set(副本集):
副本集使其组内的每个成员(member)在不同的mongod实例中具有相同的数据备份,这样可以将来自应用服务器的请求访问(request visit)得以均匀的分布在Replica Set的每一个成员所在的mongod实例上,用以减缓单台mongod服务器在请求负载上的压力。在一定时限内Replica Set能完成其组内成员数据的最终一致,这种备份机制是自动且对用户透明的。
Mongodb使用缓存来大量命中读请求来达到提高吞吐量的目的,这样使得在某些极端的情况下(比如单机房部署环境下机房断电)仍不能保证数据完整可靠的保存下来。会丢失最近几十秒内最新写入的数据。
Sharding(切分规则):
在单mongod实例中的数据负载过大时,可以考虑将实例中的数据按一定的规则将数据部署到不同mongod实例中。同样在此切分规则之下,对数据的访问请求也将按此规则分发到不同的mongod实例中,解决单机数据量过大时查询性能下降的问题。
当然,系统要求数据库在切分规则下也有较高的可用性,保证数据在经过切分后也会有多份拷贝放置在不同的服务器中。使得相同数据的mongod实例形成分片组(shards group),既Replica Set。这样使得mongodb集群允许不多的服务器故障后仍然保有完整的数据。
Config Server(配置服务器):
Config Server存储分片集群的的元数据,其中包括在每个mongod实例的基本信息和块信息。每个配置服务器所有块的元数据的副本。通过两次提交来确保在配置服务器信息与块数据的一致性。
Routing Processor(mongos路由进程)
mongos 可以被看作是一个数据和请求分发的中心,使单一的mongod实例组成互相关联的集群。当接收客户端请求, mongos根据Config Server路由到相应的mongod实例(可能是一组mongod),处理并返回结果。mongos 进程没有持久状态,在mongos启动时和配置服务器建立连接并获取状态,当配置服务器发生任何变化时,会将之传播到每个mongos 进程。
(领导让写个方案,就照着别人的画了个图,纯属剽窃,如有雷同,不会是巧合! )
2、启动三台机器的mongod实例
根据Replica Set、Sharding策略部署mongod。将两个sharding组部署到三台服务器上,每个sharding组有三个replica set成员。
#Server1:
mkdir -p /data2/mongodb/shard11
mkdir -p /data2/mongodb/shard21
/mongodb/bin/mongod --shardsvr --replSet shard1 --port 27017 --dbpath /data2/mongodb/shard11 --oplogSize 100 --logpath /data2/mongodb/shard11.log --logappend --fork --rest
/mongodb/bin/mongod --shardsvr --replSet shard2 --port 27018 --dbpath /data2/mongodb/shard21 --oplogSize 100 --logpath /data2/mongodb/shard21.log --logappend --fork –rest
#Server2:
mkdir -p /data2/mongodb/shard12/
mkdir -p /data2/mongodb/shard22/
/mongodb/bin/mongod --shardsvr --replSet shard1 --port 27017 --dbpath /data2/mongodb/shard12 --oplogSize 100 --logpath /data2/mongodb/shard12.log --logappend --fork --rest
/mongodb/bin/mongod --shardsvr --replSet shard2 --port 27018 --dbpath /data2/mongodb/shard22 --oplogSize 100 --logpath /data2/mongodb/shard22.log --logappend --fork –rest
#Server3:
mkdir -p /data2/mongodb/shard13/
mkdir -p /data2/mongodb/shard23/
/mongodb/bin/mongod --shardsvr --replSet shard1 --port 27017 --dbpath /data2/mongodb/shard13 --oplogSize 100 --logpath /data2/mongodb/shard13.log --logappend --fork --rest
/mongodb/bin/mongod --shardsvr --replSet shard2 --port 27018 --dbpath /data2/mongodb/shard23 --oplogSize 100 --logpath /data2/mongodb/shard23.log --logappend --fork –rest
3、初始化Replica Set
通过命令行初始化两组Replica Set,通过mongo连接到一个mongod
/mongodb/bin/mongo 172.17.0.121:27017
config = {_id: ‘shard1′, members: [
{_id: 0, host: '172.17.0.121:27017'},
{_id: 1, host: '172.17.0.122:27017'},
{_id: 2, host: '172.17.0.123:27017'}]};
rs.initiate(config);
/mongodb/bin/mongo 172.17.0.121:27018
config = {_id: ‘shard2′, members: [
{_id: 0, host: '172.17.0.121:27018'},
{_id: 1, host: '172.17.0.122:27018'},
{_id: 2, host: '172.17.0.123:27018'}]};
rs.initiate(config);
4、启动并配置三台Config Server
#Server1、2、3:
mkdir -p /data2/mongodb/config/
/mongodb/bin/mongod --configsvr --dbpath /data2/mongodb/config/ --port 20000 --logpath /data2/mongodb/config1.log --logappend –fork
5、部署并配置三台Routing Server
指定所有的config sever地址参数,chunkSize是分割数据时每块(Chunk)的单位大小
#Server1、2、3:
/mongodb/bin/mongos --configdb 172.17.0.121:20000, 172.17.0.122:20000, 172.17.0.123:20000 --port 30000 --chunkSize 100 --logpath /data2/mongodb/mongos.log --logappend –fork
6、命令行添加分片
连接到mongs服务器,并切换到admin
/mongodb/bin/mongo 172.17.0.121:30000/admin
db.runCommand( {
addshard : “shard1/172.17.0.121:27017, 172.17.0.122:27017, 172.17.0.123:27017”,
name:”shard1”,
maxsize:20480,
allowLocal:true } );
db.runCommand( {
addshard : “shard2/172.17.0.121:27018, 172.17.0.122:27018, 172.17.0.123:27018”,
name:”shard2”,
maxsize:20480
allowLocal:true} );
db.runCommand( { listshards : 1 } );
如果列出(sharding)了以上二个你加的shards,表示shards已经配置成功
7、激活数据库的分片
DB分片, 使DB下所有Collection实现数据的横向切分
db.runCommand( { enablesharding : “test” } );
查看Sharding状态
use admin;
db.printShardingStatus();
Collection分片, 使单个Collection实现数据的横向切分
要使单个Collection分片存储,需要给Collection指定一个分片key。
a. 分片的collection系统会自动创建一个索引(也可用户提前创建好)
b. 分片的collection只能有一个在分片key上的唯一索引,其它唯一索引不被允许
db.runCommand( { shardcollection : “test.c1″,key : {id: 1} };
可以通过db.c1.stats()来查看分片状态。
final、生产环境建议使用配置文件来启动mongod
例: /mongodb/bin/mongod --config /data2/mongodb/shard1/shard1.properties --rest
总结:
1. 一个或多个分片,其中每个分片持有部分数据(自动管理)。读写操作自动路由到合适的分片上。每个分片是一个replica set。
一个replica set是一台或多台服务器,每台机器持有相同数据的拷贝。在特定的时间点,一台机器是主节点而其他机器是从节点。如果主节点死掉了,其中一台从节点自动接管为主节点。所有的写操作和一致性读操作都进入主节点,而所有的最终一致性读操作分布到所有从节点上。
2. 多台配置服务器,其中每台配置服务器持有表明数据位于哪个分片的元数据的拷贝。
3. 一个或多个路由器,其中每个路由器都作为一个或多个客户端的服务器。客户端向路由器发起查询和更新,路由器询问配置服务器后将请求分发到合适的分片上。
4. 一个或多个客户端,其中每个客户端都是用户应用程序的一部分,它使用自身语言的mongo客户端驱动向路由器发起请求。
mongod 是服务器端程序(数据或配置)。 mongos 是路由器程序。