MongoDB的sharding功能是把数据分别存到不同的节点(shard),官方说明例子是:以居民住址为依据,分别存放信息到三台主机,则可能的一种情况是:A主机储存Alaska 到 Kansas州的居民,B主机储存Kentucky 到 New York州的居民,C主机储存North Carolina 到 Wyoming州的居民。
每次储存会通过“mongos 进程”作为路由分发,把信息储存到合适的节点(shard),而且每个查询会分发到合适的主机进行查询,因此mongoDB在面对大数据量时仍能有效运行。注意的是sharding功能是针对容器的(collection),不是整个数据库(DB),而且所有数据都是有序的,排序是通过:实现shard应用时指定一个或多个Key,所有的数据都将按Key排序。mongos进程是不存在持久状态的,它的状态由config server决定,config server任何改变都会反应到所有mongos进程。
每个shard节点都需要做balancing and failover(负载均衡和故障转移)。
MongoDB的sharding包括2个或多个shards,1个或多个配置服务器(config server),任意个路由进程(mongos),整体架构如下图:
图1 mongoDB的Sharding架构
每个shard包括1或多个服务器,mongod进程负责储存数据。每个shard会包括多对replica servers。
配置数据库保存记录每个shard所应记录的数据范围的元数据。如下图:
图2 config server保存的信息
在每个Shard里保存的容器(Collection),会包含不同的Chunk(片),每个chunk是collection里一组连续的数据,chunk的信息包括:collection, minKey, maxKey,每个chunk里的Key都是minKey到maxKey的范围内。对于config server 主要保存的信息就是各个chunk的信息。每个config server都包含一整套chunk信息。
在sharded系统上的操作分两种类型,一种是targeted(指定shard的),一种是global(全局的);其实很容易理解,凡是包含key的find,insert,update操作是targeted的,不包含的find,insert,update是global的,sort操作都是全局的,详情可参考官方文档(http://www.mongodb.org/display/DOCS/Sharding+Introduction#ShardingIntroduction-OperationTypes)。
再附上官方一张各服务器的部署图:
图3 mongo sharding cluster 部署图
图3的一种优化配置是server1~7都拥有mongos进程,这样在本地也可以进行应用服务器与mongos的通信。