本文转自:http://shift-alt-ctrl.iteye.com/blog/2243083
一、BSON文档
1、BSON文档尺寸:一个document文档最大尺寸为16M;大于16M的文档需要存储在GridFS中。
2、文档内嵌深度:BSON文档的结构(tree)深度最大为100。
二、Namespaces
1、collection命名空间:.,最大长度为120字节。这也限定了database和collection的名字不能太长。
2、命名空间的个数:对于MMAPV1引擎,个数最大为大约为24000个,每个collection以及index都是一个namespace;对于wiredTiger引擎则没有这个限制。
3、namespace文件的大小:对于MMAPV1引擎而言,默认大小为16M,可以通过在配置文件中修改。wiredTiger不受此限制。
三、indexes
1、index key:每条索引的key不得超过1024个字节,如果index key的长度超过此值,将会导致write操作失败。
2、每个collection中索引的个数不得超过64个。
3、索引名称:我们可以为index设定名称,最终全名为..$,最长不得超过128个字节。默认情况下为filed名称与index类型的组合,我们可以在创建索引时显式的指定index名字,参见createIndex()方法。
4、组合索引最多能包含31个field。
四、Data
1、Capped Collection:如果你在创建“Capped”类型的collection时指定了文档的最大个数,那么此个数不能超过2的32次方,如果没有指定最大个数,则没有限制。
2、Database Size:MMAPV1引擎而言,每个database不得持有超过16000个数据文件,即单个database的总数据量最大为32TB,可以通过设置“smallFiles”来限定到8TB。
3、Data Size:对于MMAVPV1引擎而言,单个mongod不能管理超过最大虚拟内存地址空间的数据集,比如Linux(64位)下每个mongod实例最多可以维护64T数据。wiredTiger引擎没有此限制。
4、每个Database中collection个数:对于MMAPV1引擎而然,每个database所能持有的collections个数取决于namespace文件大小(用来保存namespace)以及每个collection中indexes的个数,最终总尺寸不超过namespace文件的大小(16M)。wiredTiger引擎不受到此限制。
五、Replica Sets
1、每个replica set中最多支持50个members。
2、replica set中最多可以有7个voting members。(投票者)
3、如果没有显式的指定oplog的尺寸,其最大不会超过50G。
六、Sharded Clusters
1、group聚合函数,在sharding模式下不可用。请使用mapreduce或者aggregate方法。
2、Coverd Queries:即查询条件中的Fields必须是index的一部分,且返回结果只包含index中的fields;对于sharding集群,如果query中不包含shard key,索引则无法进行覆盖。虽然_id不是“shard key”,但是如果查询条件中只包含_id,且返回的结果中也只需要_id字段值,则可以使用覆盖查询,不过这个查询似乎并没有什么意义(除非是检测此_id的document是否存在)。
3、对于已经存有数据的collections开启sharding(原来非sharding),则其最大数据不得超过256G。当collection被sharding之后,那么它可以存储任意多的数据。
4、对于sharded collection,update、remove对单条数据操作(操作选项为multi:false或者justOne),必须指定shard key或者_id字段;否则将会抛出error。
5、唯一索引:shards之间不支持唯一索引,除非这个“shard key”是唯一索引的最左前缀。比如collection的shard key为{"zipcode":1,"name": 1},如果你想对collection创建唯一索引,那么唯一索引必须将zipcode和name作为索引的最左前缀,比如:collection.createIndex({"zipcode":1,"name":1,"company":1},{unique:true})。
6、在chunk迁移时允许的最大文档个数:如果一个chunk中documents的个数超过250000(默认chunk大小为64M)时,或者document个数大于 1.3 *(chunk最大尺寸(有配置参数决定)/ document平均尺寸),此chunk将无法被“move”(无论是balancer还是人工干预),必须等待split之后才能被move。
七、shard key
1、shard key的长度不得超过512个字节。
2、“shard key索引”可以为基于shard key的正序索引,或者以shard key开头的组合索引。shard key索引不能是multikey索引(基于数组的索引)、text索引或者geo索引。
3、Shard key是不可变的,无论何时都不能修改document中的shard key值。如果需要变更shard key,则需要手动清洗数据,即全量dump原始数据,然后修改并保存在新的collection中。
4、单调递增(递减)的shard key会限制insert的吞吐量;如果_id是shard key,需要知道_id是ObjectId()生成,它也是自增值。
对于单调递增的shard key,collection上的所有insert操作都会在一个shard节点上进行,那么此shard将会承载cluster的全部insert操作,因为单个shard节点的资源有限,因此整个cluster的insert量会因此受限。如果cluster主要是read、update操作,将不会有这方面的限制。为了避免这个问题,可以考虑使用“hashed shard key”或者选择一个非单调递增key作为shard key。(rang shard key 和hashed shard key各有优缺点,需要根据query的情况而定)。
八、Operations
1、如果MongoDB不能使用索引排序来获取documents,那么参与排序的documents尺寸需要小于32M。
2、Aggregation Pileline操作
Pipeline stages限制在100M内存,如果stage超过此限制将会发生错误,为了能处理较大的数据集,请开启“allowDiskUse”选项,即允许pipeline stages将额外的数据写入临时文件。
九、命名规则
1、database的命名区分大小写。
2、database名称中不要包含:/ \.''$*<>:|?
3、database名称长度不能超过64个字符。
4、collection名称可以以“_”或者字母字符开头,但是不能包含"$"符号,不能为空字符或者null,不能以“system.”开头,因为这是系统保留字。
5、document字段名不能包含“.”或者null,且不能以“$”开头,因为$是一个“引用符号”。
1、单台服务器或主从模式:
- Mongo mongo1 = new Mongo( "127.0.0.1" );
- Mongo mongo2 = new Mongo( "127.0.0.1", 27017 );
- Mongo mongo3 = new Mongo( new DBAddress( "127.0.0.1", 27017, "test" ) );
- Mongo mongo4 = new Mongo( new ServerAddress( "127.0.0.1") );
四种方式均可,默认的链接端口是27017。
2、复制集模式链接:请注意,单台机器上配置的复制集最好使用真实ip初始化和链接,不建议使用127.0.0.1或者localhost,否则容易链接不上,详见 此篇blog
- static Mongo m = null;
- static{
- try {
- List list= new ArrayList();
- ServerAddress sap0 = new ServerAddress("192.168.132.100",20011);
- ServerAddress sas1 = new ServerAddress("192.168.132.100",20012);
- ServerAddress sas2 = new ServerAddress("192.168.132.100",20013);
- list.add(sap0);
- list.add(sas1);
- list.add(sas2);
- m = new Mongo(list);
- } catch (UnknownHostException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- }
二、连接选项:
mongo-java-driver中提供了一个类MongoOption,用于初始化链接参数,主要有一下这些:
1、常规选项:
①、
connectionsPerHost:单个主机连接到mongo实例允许的最大连接数。这其实相当于c3p0的maxPoolSize参数,mongo是内建连接池的,功能跟c3p0等差不多,超过了就会新建链接,默认值是10,大并发的话较小。
②、
threadsAllowedToBlockForConnectionMultiplier:这个参数是跟
connectionsPerHost
配套的,当连接数超过
connectionsPerHost
的时候,需要建立新的连接,连接请求会被阻塞,这个参数就代表允许阻塞请求的最大值,超过这个值之后的请求都会报错。默认值5。
③、
maxWaitTime
:线程等待链接可用的最长时间,ms单位,默认120,000,两分钟。
④、
connectTimeout:建立链接的超时时间。默认为10,000,10s(2.9.0)
⑤、
socketTimeout:执行io操作的超时时间,默认为0,代表不超时。
⑥、
socketKeepAlive:为防火墙设置的,保证socket存活。默认false。
⑦、
autoConnectRetry:自动重连,连接池都有的参数。但是在mongo里显的比较鸡肋,不管设置false还是true,mongo-java-driver本身就有重连机制,而且当是复制集的情况下,如果主库宕机,他只会重连宕机机器的ip,我不知道这个是怎么处理的,以后看源码吧,默认false,看来本来也不建议打开。
ps:(2012-09-28)今天机房发生网络波动,导致连接数暴增,应该跟自动重连是有关系的,mongo的访问量较大,在网络波动的情况下极易放生这种情况,看来这个自动重连也需要改进。
⑧、
maxAutoConnectRetryTime
:我去,坑爹啊,竟然是时间!默认为0,代表15s。。。咋想的。
⑨、
slaveOk
:用于读写分离,废弃了(mongo2.0/driver2.7),详见Mongo读写分离。
使用:
2、特殊选项:
Driver对数据库的写操作分几个安全级别,均是通过
WriteConcern
类控制,在MongoOption中定义了
WriteConcern
中使用的全局参数。
①、
WriteConcern
中的几个安全级别:
- /** No exceptions are raised, even for network issues */
- public final static WriteConcern NONE = new WriteConcern(-1);
-
- /** Exceptions are raised for network issues, but not server errors */
- public final static WriteConcern NORMAL = new WriteConcern(0);
-
- /** Exceptions are raised for network issues, and server errors; waits on a server for the write operation */
- public final static WriteConcern SAFE = new WriteConcern(1);
-
- /** Exceptions are raised for network issues, and server errors; waits on a majority of servers for the write operation ,waitsfor more than 50%of the configured nodes to acknowledge the write (until replication is applied to the point of that write)
*/
- public final static WriteConcern MAJORITY = new Majority();
-
- /** Exceptions are raised for network issues, and server errors; the write operation waits for the server to flush the data to disk*/
- public final static WriteConcern FSYNC_SAFE = new WriteConcern(true);
-
- /** Exceptions are raised for network issues, and server errors; the write operation waits for the server to group commit to the journal file on disk*/
- public final static WriteConcern JOURNAL_SAFE = new WriteConcern( 1, 0, false, true );
-
- /** Exceptions are raised for network issues, and server errors; waits for at least 2 servers for the write operation*/
- public final static WriteConcern REPLICAS_SAFE = new WriteConcern(2);
NONE的级别最低,不管出了啥事儿,客户端一股脑的往mongo插入,连网络断了都不管。REPLICAS_SAFE的级别最高,他要等从库都同步完才返回给客户端插入成功,复制集的话要至少两台同步完才行,分布式事务啊,牛叉,但是,它没有事务。。。开玩喜了。
②、参数解释:
WriteConcern的初始化函数,一通重载之后调用:
- public WriteConcern( int w , int wtimeout , boolean fsync , boolean j, boolean continueOnInsertError){
- _w = w;
- _wtimeout = wtimeout;
- _fsync = fsync;
- _j = j;
- _continueOnErrorForInsert = continueOnInsertError;
- }
这个函数指定写操作需要等待的server的数量和抛出异常的行为。
w:代表server的数量:。
w=-1 不等待,不做异常检查
w=0 不等待,只返回网络错误
w=1 检查本机,并检查网络错误
w>1 检查w个server,并返回网络错误
wtimeout:写操作超时的时间。
fsync :是不是等待刷新数据到磁盘,参见FSYNC_SAFE的注释。
j
:是不是等待提交的数据已经写入到日志,并刷新到磁盘,参见JOURNAL_SAFE的注释。
MongoOption中有全局的设置。还有一个
safe
:相当于w=1,wtimeout=0,fsync和j为false,如果这几个指定了,safe不起作用。参见SAFE的注释
三、MongoOption的使用:
com.jd.mongodbclient2.driver.MongoDBDriver.slaveOk=false
- MongoOptions op = new MongoOptions();
- op.safe=true;
- op.connctionPerHost=50;
- op.connctionTimeout=120000;
- ....
- //list是serverAddress的列表
- Mongo m = new Mongo(list,op);
WriteConcern设置好之后用
MongoDB配置参数详解:
#对mongo实例来说,每个host允许链接的最大链接数,这些链接空闲时会放入池中,如果链接被耗尽,任何请求链接的操作会被阻塞等待链接可用,推荐配置10
connectionsPerHost=10
#当链接空闲时,空闲线程池中最大链接数
minPoolsSize=5
#此参数跟connectionsPerHost的乘机为一个线程变为可用的最大阻塞数,超过此乘机数之后的所有线程将及时获取一个异 常.eg.connectionsPerHost=10 and threadsAllowedToBlockForConnectionMultiplier=5,最多50个线程等级一个链接,推荐配置为5
threadsAllowedToBlockForConnectionMultiplier=5
#一个线程等待链接可用的最大等待毫秒数,0表示不等待,负数表示等待时间不确定,推荐配置120000
maxWaitTime=120000
#链接超时的毫秒数,0表示不超时,此参数只用在新建一个新链接时,推荐配置10,000.
connectTimeout=10000
#此参数表示socket I/O读写超时时间,推荐为不超时,即 0 Socket.setSoTimeout(int)
socketTimeout=0
#该标志用于控制socket保持活动的功能,通过防火墙保持连接活着
socketKeepAlive=false
#true:假如链接不能建立时,驱动将重试相同的server,有最大的重试次数,默认为15次,这样可以避免一些server因为一些阻塞操作零时 down而驱动抛出异常,这个对平滑过度到一个新的master,也是很有用的,
注意:当集群为复制集时,驱动将在这段时间里,尝试链接到旧的 master上,而不会马上链接到新master上
#false 当在进行socket读写时,不会阻止异常抛出,驱动已经有自动重建破坏链接和重试读操作. 推荐配置false
autoConnectRetry=false
#重新打开链接到相同server的最大毫秒数,推荐配置为0,如果 autoConnectRetry=true,表示时间为15s
#com.jd.mongodbclient2.mongo.JDClientMongo.maxAutoConnectRetryTime=false
#表示当没有手动关闭游标时,是否有一个自动释放游标对象的方法,如果你总是很小心的关闭游标,则可以将其设为false 推荐配置true
#com.jd.mongodbclient2.mongo.JDClientMongo.cursorFinalizerEnabled=true
#安全模式
com.jd.mongodbclient2.driver.MongoDBDriver.safe=true
#为true表示读写分离