MongDB片键的选择

  • 如果选择一个基数较小的字段作为片键,则最好使用复合片键,使用复合片键后面跟一个基数较大的字段。

如:

db.foo.find()
{logLevel:"debug",timestamp:1520872828541,other_field:\\}
{logLevel:"info",timestamp:1520872853312,other_field:\\}
{logLevel:"warn",timestamp:1520872858171,other_field:\\}
{logLevel:"error",timestamp:1520872863245,other_field:\\}
....

以上的"logLevel"字段只有4个值,就算插入1000万条数据也只有"debug","info","warn","error"这4个值,所以logLevel的基数是4。意味着logLevel作为单独片键的话,所有文档都只能被写入到最多4个数据块(chunk)中,这样一来就算增加分片也没什么任何卵用了,因为这4个数据块越来越大并不会被拆分,最多也就只能存在于4个分片之中。这情况下,片键一定要设置为基数较少的键或者说查询一定要用到基数较少的键的时候,可以使用复合片键,后面跟一个基数较大的值,例如这里可以使用{logLevel:1,timestamp1}作为片键。

  • 如果选择一个值重复频率出现较频繁的字段作为片键,使用复合片键后面跟一个重复频率较小的字段。

如:

db.foo.find()
{luckyNum:11,shop:"tmaill",other_field:\\}
{luckyNum:11,shop:"JD",other_field:\\}
{luckyNum:11,shop:"Amazon",other_field:\\}
{luckyNum:10,shop:"Tabao",other_field:\\}
...

假如上例shop字段包含全世界所有电商。luckNum在整个文档里,值为11占了大多数,但遇到必须用该字段作为查询条件的时候(片键字段作为查询条件效率最高,所以默认查询条件就是片键),后面可以跟一个重复频率较小的字段。例如{luckNum:1,shop:1}。

  • 如果选择一个单调递增的字段作为片键,选择散列片键。

如:

{ "_id" : ObjectId("5aa66c778ad4b72c19410450") }
{ "_id" : ObjectId("5aa6a48318b6464ac1bcfda1") }
{ "_id" : ObjectId("5aa6a48318b6464ac1bcfda2") }
{ "_id" : ObjectId("5aa6a48318b6464ac1bcfda3") }
{ "_id" : ObjectId("5aa6a48318b6464ac1bcfda4") }
{ "_id" : ObjectId("5aa6a48318b6464ac1bcfda5") }
{ "_id" : ObjectId("5aa6a48318b6464ac1bcfda6") }
{ "_id" : ObjectId("5aa6a48318b6464ac1bcfda7") }
...

_id 唯一且单调递增,对这样的字段作为片键可以这样:

db..ensureIndex({:"hashed"})
sh.shardCollection(".", {  : "hashed" } )

否则用该字段作为片键,最新插入的数据永远只命中最后的块,也就是只命中集群里的其中一个分片,等该块增长的时候再由均衡器将块分割。这样的话,违背了集群的初衷。

你可能感兴趣的:(MongDB片键的选择)