ES跨集群索引迁移(文件拷贝)

1. 说明

以文件拷贝方式跨集群迁移索引,会完整保留源集群上的索引的setting、mapping、aliase等所有完整配置,迁移过程中无法进行修改;

2. 源集群上备份索引

2.1 获取待迁移索引信息

包括索引setting、mapping、shard数量以及每个shard所在的节点信息;

获取索引信息

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/indices/shakespeare?v'

health status index       uuid                   pri rep docs.count pri.store.size

green  open   shakespeare kEr6n5PJQ1COdhgXDpApnA   1   1     335901        202.6mb

获取索引相关的shard信息

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/shards/shakespeare?v'

index       shard prirep state     docs   store ip           node

shakespeare 0     r      STARTED 335901 201.8mb 10.31.10.160 node-02

shakespeare 0     p      STARTED 335901 202.6mb 10.31.10.160 node-03

  可以看到待迁移的索引 song_proj_ae_20200304105959的id为kEr6n5PJQ1COdhgXDpApnA,有1个主分片,在节点10.31.10.160上,总文档数 335901,后续需要用到这些信息;

2.2 停止索引写入

索引备份之前,需要确保索引已经停止写入,最好停止索引写入的程序运行;

2.3 确保缓存写入磁盘

索引备份之前,需要确保缓存中的索引数据已经保存在磁盘上,否则会发生数据丢失,使用如下命令,强制缓存中的所有数据写入磁盘,待命令执行成功后继续下一步;

curl -XPOST "http://XX.XX.XX.XX:9200/shakespeare/_flush/synced"

2.4 备份索引

根据第一步上获取到的索引的每个分片的节点信息,登陆到对应的节点上对应的索引目录下,将索引uuid的目录,完整进行备份操作。

/opt/huawei/data2/nodes/0/indices/kEr6n5PJQ1COdhgXDpApnA

drwx------ 5 es users 4096 Mar  4 11:37 0

drwx------ 2 es users 4096 Mar  4 12:06 _state

scp -r kEr6n5PJQ1COdhgXDpApnA XX.XX.XX.XX:/opt/huawei/data_bak/shakespeare/0/

建议:如果源集群和目的集群之间的网络是互通的,可以直接两台机器之间直接拷贝;

2.5 多分片的备份方式

如果索引中包含多个主分片,并且分片分布在不同的服务器上,则需要分别备份到备份服务器上,不可以人为进行合并;

建议:有条件的话,可以将多个分片通过reroute的move命令,移动到同一个节点上,可以简化备份和恢复操作;

3. 目的集群上恢复索引

3.1 准备

恢复索引就是从备份服务器上,将备份的索引恢复到新集群的Datanode节点上,恢复过程中需要的Datanode节点的数量,和源集群上索引分布的Datanode节点数量相等,即如果索引只有1个分片,或者所有分片都集中在1个Datanode节点,则只需要恢复到1个Datanode节点即可,如果索引有4个分片,分布到3台Datanode上,则需要分别恢复到新集群上的3台Datanode上,依次类推;

3.2 恢复索引文件

下面以恢复一个索引的一个分片为例进行说明:

登陆到新集群的一台Datanode服务器上,进入ES Data目录下的indices子目录下,参考 /opt/huawei/data/nodes/0/indices;

从备份服务器上,将需要恢复索引的对应索引目录复制到该目录下。

cd /opt/huawei/data/nodes/0/indices/

cp -r /opt/huawei/data_bak/shakespeare/0/kEr6n5PJQ1COdhgXDpApnA/ .


[es@host-10-33-114-216 kEr6n5PJQ1COdhgXDpApnA]$ ll

drwx------ 4 es es 4096 Mar  5 17:07 0

drwx------ 2 es es 4096 Mar  5 17:01 _state

可以看到,此处的整个索引目录,都是从源索引的备份目录中获取来的;

[es@host-10-33-114-216 kEr6n5PJQ1COdhgXDpApnA]$ cd 0

[es@host-10-33-114-216 0]$ ll

total 8

drwx------ 2 es es 4096 Mar  5 17:07 index

drwx------ 2 es es 4096 Mar  5 17:01 _state

drwx------ 2 es es 4096 Mar  5 17:07 translog

3.3 加载索引

待索引的所有分片,都已经拷贝到对应的Datanode服务器上时,再进行索引加载操作;

当集群状态发生变化时,ES集群会自动发现并加载新索引,可以通过重启节点、创建/删除索引、调整副本数等方式触发集群状态刷新,建议可以通过触发ES集群自动修复来进行集群状态刷新;

curl -XPOST "http://XX.XX.XX.XX:9200/_cluster/reroute?retry_failed=true"

集群状态刷新后,依次检查索引状态和分片状态,可以看到对应索引的状态已经变成GREEN,并且分片的状态已经变成 STARTED,恢复正常;

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/indices/shakespeare?v'

health status index       uuid                   pri rep docs.count pri.store.size

green  open   shakespeare kEr6n5PJQ1COdhgXDpApnA   1   1     335901        202.6mb

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/shards/shakespeare?v'

index       shard prirep state     docs   store ip            node

shakespeare 0     p      STARTED 335901 201.8mb 10.33.114.216 node-01

至此,该索引的数据已经恢复,如果有多个索引需要恢复,可以重复执行以上步骤;

4. 常见问题

4.1 当索引已经迁移到新集群中后,如果通过手工删除后,再次采用该方式无法迁移

原因:ES中自动识别索引,是通过索引名称和uuid来唯一确定的,虽然该索引已经删除,但是在ES集群中的信息已经将该索引标记为删除状态,无法再次通过自动识别进行迁移;

解决方法:需要将源索引改名后重新迁移;

4.2 当索引有多个分片,只迁移了部分分片进行恢复后,索引状态为RED

原因:当只迁移了部分分片就恢复时,由于ES找不到其他未迁移的分片,导致索引状态为RED;

解决方法:将未恢复的分片拷贝到某个datanode节点上,再通过 allocate_stale_primary 命令,强制恢复;

shard为准备恢复的shard id,node表示在该节点上已经存在该shard的数据,index为索引名称;

curl -XPOST "http://127.0.0.1:9200/_cluster/reroute" -H "Content-Type: application/json" -d '{

   "commands": [

       {

           "allocate_stale_primary": {

               "index": "shakespeare",

               "shard": 0,

               "node": "node-01",

               "accept_data_loss": true

           }

       }

   ]

}'

你可能感兴趣的:(ES跨集群索引迁移(文件拷贝))