1. 说明

以文件拷贝方式跨集群迁移索引，会完整保留源集群上的索引的setting、mapping、aliase等所有完整配置，迁移过程中无法进行修改；

2. 源集群上备份索引

2.1 获取待迁移索引信息

包括索引setting、mapping、shard数量以及每个shard所在的节点信息；

获取索引信息

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/indices/shakespeare?v'

health status index uuid pri rep docs.count pri.store.size

green open shakespeare kEr6n5PJQ1COdhgXDpApnA 1 1 335901 202.6mb

获取索引相关的shard信息

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/shards/shakespeare?v'

index shard prirep state docs store ip node

shakespeare 0 r STARTED 335901 201.8mb 10.31.10.160 node-02

shakespeare 0 p STARTED 335901 202.6mb 10.31.10.160 node-03

可以看到待迁移的索引 song_proj_ae_20200304105959的id为kEr6n5PJQ1COdhgXDpApnA，有1个主分片，在节点10.31.10.160上，总文档数 335901，后续需要用到这些信息；

2.2 停止索引写入

索引备份之前，需要确保索引已经停止写入，最好停止索引写入的程序运行；

2.3 确保缓存写入磁盘

索引备份之前，需要确保缓存中的索引数据已经保存在磁盘上，否则会发生数据丢失，使用如下命令，强制缓存中的所有数据写入磁盘，待命令执行成功后继续下一步；

curl -XPOST "http://XX.XX.XX.XX:9200/shakespeare/_flush/synced"

2.4 备份索引

根据第一步上获取到的索引的每个分片的节点信息，登陆到对应的节点上对应的索引目录下，将索引uuid的目录，完整进行备份操作。

/opt/huawei/data2/nodes/0/indices/kEr6n5PJQ1COdhgXDpApnA

drwx------ 5 es users 4096 Mar 4 11:37 0

drwx------ 2 es users 4096 Mar 4 12:06 _state

scp -r kEr6n5PJQ1COdhgXDpApnA XX.XX.XX.XX:/opt/huawei/data_bak/shakespeare/0/

建议：如果源集群和目的集群之间的网络是互通的，可以直接两台机器之间直接拷贝；

2.5 多分片的备份方式

如果索引中包含多个主分片，并且分片分布在不同的服务器上，则需要分别备份到备份服务器上，不可以人为进行合并；

建议：有条件的话，可以将多个分片通过reroute的move命令，移动到同一个节点上，可以简化备份和恢复操作；

3. 目的集群上恢复索引

3.1 准备

恢复索引就是从备份服务器上，将备份的索引恢复到新集群的Datanode节点上，恢复过程中需要的Datanode节点的数量，和源集群上索引分布的Datanode节点数量相等，即如果索引只有1个分片，或者所有分片都集中在1个Datanode节点，则只需要恢复到1个Datanode节点即可，如果索引有4个分片，分布到3台Datanode上，则需要分别恢复到新集群上的3台Datanode上，依次类推；

3.2 恢复索引文件

下面以恢复一个索引的一个分片为例进行说明：

登陆到新集群的一台Datanode服务器上，进入ES Data目录下的indices子目录下，参考 /opt/huawei/data/nodes/0/indices；

从备份服务器上，将需要恢复索引的对应索引目录复制到该目录下。

cd /opt/huawei/data/nodes/0/indices/

cp -r /opt/huawei/data_bak/shakespeare/0/kEr6n5PJQ1COdhgXDpApnA/ .

[es@host-10-33-114-216 kEr6n5PJQ1COdhgXDpApnA]$ ll

drwx------ 4 es es 4096 Mar 5 17:07 0

drwx------ 2 es es 4096 Mar 5 17:01 _state

可以看到，此处的整个索引目录，都是从源索引的备份目录中获取来的；

[es@host-10-33-114-216 kEr6n5PJQ1COdhgXDpApnA]$ cd 0

[es@host-10-33-114-216 0]$ ll

total 8

drwx------ 2 es es 4096 Mar 5 17:07 index

drwx------ 2 es es 4096 Mar 5 17:01 _state

drwx------ 2 es es 4096 Mar 5 17:07 translog

3.3 加载索引

待索引的所有分片，都已经拷贝到对应的Datanode服务器上时，再进行索引加载操作；

当集群状态发生变化时，ES集群会自动发现并加载新索引，可以通过重启节点、创建/删除索引、调整副本数等方式触发集群状态刷新，建议可以通过触发ES集群自动修复来进行集群状态刷新；

curl -XPOST "http://XX.XX.XX.XX:9200/_cluster/reroute?retry_failed=true"

集群状态刷新后，依次检查索引状态和分片状态，可以看到对应索引的状态已经变成GREEN，并且分片的状态已经变成 STARTED，恢复正常；

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/indices/shakespeare?v'

health status index uuid pri rep docs.count pri.store.size

green open shakespeare kEr6n5PJQ1COdhgXDpApnA 1 1 335901 202.6mb

curl -XGET 'http://XX.XX.XX.XX:9200/_cat/shards/shakespeare?v'

index shard prirep state docs store ip node

shakespeare 0 p STARTED 335901 201.8mb 10.33.114.216 node-01

至此，该索引的数据已经恢复，如果有多个索引需要恢复，可以重复执行以上步骤；

4. 常见问题

4.1 当索引已经迁移到新集群中后，如果通过手工删除后，再次采用该方式无法迁移

原因：ES中自动识别索引，是通过索引名称和uuid来唯一确定的，虽然该索引已经删除，但是在ES集群中的信息已经将该索引标记为删除状态，无法再次通过自动识别进行迁移；

解决方法：需要将源索引改名后重新迁移；

4.2 当索引有多个分片，只迁移了部分分片进行恢复后，索引状态为RED

原因：当只迁移了部分分片就恢复时，由于ES找不到其他未迁移的分片，导致索引状态为RED；

解决方法：将未恢复的分片拷贝到某个datanode节点上，再通过 allocate_stale_primary 命令，强制恢复；

shard为准备恢复的shard id，node表示在该节点上已经存在该shard的数据，index为索引名称；

curl -XPOST "http://127.0.0.1:9200/_cluster/reroute" -H "Content-Type: application/json" -d '{

"commands": [

{

"allocate_stale_primary": {

"index": "shakespeare",

"shard": 0,

"node": "node-01",

"accept_data_loss": true

}

]

ES跨集群索引迁移（文件拷贝）