熟悉elasticsearch的同学都知道,在elasticsearch数据库中每创建一个index(索引),都会有默认的5个primary shard(主分片)被创建,同时默认会创建一份replica shard,也就是给每个primary shard创建一个replica shard,换就话说,当在elasticsearch中创建一个index(索引),意味着有10个shard产生,5个primary shard + 5个replica shard。
有的同学可能要问了,那默认是5个primary shard 和5个replica shard,可不可以修改,当然,这个数据量是可以修改的,但是,需要注意的是,当一个index(索引)被创建后,primary shard就不能进行修改了,但是replica shard是可以随时修改的。primary shard 的修改时间应该是在创建index的时候,进行显式的设定。那为什么是这样呢?为什么replica shard就可以随时修改,而primary shard就只能在创建的时候指定,而不能随时的修改它的大小呢?这就还得从document数据在elasticsearch中的路由说起。
那又有同学要问了,document路由到shard是什么意思呢?好,听我慢慢来说,我们都知道,一个index的数据会被分成多片,每片都在一个shard中,所以,一个document只可能存在一个shard中,当客户端创建document的时候,es就需要决定这个document是放在这个index的哪个shard上面,这个过程就称之为doucument routing(数据路由)
那elasticsearch是如何路由的,如何保证将一个doucument的不同分片放在同一个shard上面。elasticsearch采用路由算法。
shard = hash(routing)% number_of_primary_shrads
举栗说明:一个index有3个primary shard,p0,p1,p3,每次增删改查一个document的时候,都会带过来一个routing number,默认就是document 的id(可能是手动指定,也可能是自动生成)routing=_id 会将routing传入hash函数中,然后产出一个routing值的hash值。然后将hash函数产出的值对这个index的primary shard 的数据量求余数。这个余数就决定了该document放在那个shard上面。决定一个document在哪个shard上面,最重要的一个值就是routing。相同的routing值 ,经过hash函数处理之后,一定具有相同的值。
注意:无论hash值是几,无论是什么数字,对number_of_primary_shrads求余数结果一定是在0~number_of_primary_shrads-1之间。
关于routing的值,其实默认的是document的id值,其实也可以在发送请求的时候进行指定。比如:put /index/type/id?routing=user_id,手动指定routing value是很有用的,可以保证说,某一类document一定被路由到一个shard上去,那么在后续进行应用级别的负载均衡,以及提升批量读取的性能时候,是很有帮助的。
那说完了以上这些之后,再来给大家揭秘primary shard不能改变的谜底。
继续举栗子: 假设一个index被创建后,默认有5个primary shard,现在向index中插入一条document。该docuement会通过路由算法进行计算,假设routing=1,通过hash之后成了25,那么25%5 = 0;也就是说这条document将会被路由到P0上面去(primary shard 0)。这次操作完了之后,如果primary shard的数量允许被修改,那么咱们将primary shard的数量修改为6,然后咱们发送get请求获取咱们之前插入那个document,get /index/type/1,那当elasticsearch接收到这个请求之后,也需要进行路由,得知道这个document在哪个shard上面,再去搜索。但是这个时候再去路由,将会发生出现这样的结果,由于你此时的primary shard是6,routing值仍然是1,routing通过hash之后的值仍然是25,那么此时的对primary shard numbers进行求余就是25%6 = 1,这个1就代表是在P1(primary shrad 1),这个时候,elasticsearch将会去P1上面找这条数据,结果发现没有找到,就会间接导致数据丢失。
所以,一旦index建立,primary shard就不能修改。但是replica shard是随时可以修改,因为路由算法与replica shard没有关系。