1. 说明
以文件拷贝方式跨集群迁移索引,会完整保留源集群上的索引的setting、mapping、aliase等所有完整配置,迁移过程中无法进行修改;
2. 源集群上备份索引
2.1 获取待迁移索引信息
包括索引setting、mapping、shard数量以及每个shard所在的节点信息;
获取索引信息
curl -XGET 'http://XX.XX.XX.XX:9200/_cat/indices/shakespeare?v'
health status index uuid pri rep docs.count pri.store.size
green open shakespeare kEr6n5PJQ1COdhgXDpApnA 1 1 335901 202.6mb
获取索引相关的shard信息
curl -XGET 'http://XX.XX.XX.XX:9200/_cat/shards/shakespeare?v'
index shard prirep state docs store ip node
shakespeare 0 r STARTED 335901 201.8mb 10.31.10.160 node-02
shakespeare 0 p STARTED 335901 202.6mb 10.31.10.160 node-03
可以看到待迁移的索引 song_proj_ae_20200304105959的id为kEr6n5PJQ1COdhgXDpApnA,有1个主分片,在节点10.31.10.160上,总文档数 335901,后续需要用到这些信息;
2.2 停止索引写入
索引备份之前,需要确保索引已经停止写入,最好停止索引写入的程序运行;
2.3 确保缓存写入磁盘
索引备份之前,需要确保缓存中的索引数据已经保存在磁盘上,否则会发生数据丢失,使用如下命令,强制缓存中的所有数据写入磁盘,待命令执行成功后继续下一步;
curl -XPOST "http://XX.XX.XX.XX:9200/shakespeare/_flush/synced"
2.4 备份索引
根据第一步上获取到的索引的每个分片的节点信息,登陆到对应的节点上对应的索引目录下,将索引uuid的目录,完整进行备份操作。
/opt/huawei/data2/nodes/0/indices/kEr6n5PJQ1COdhgXDpApnA
drwx------ 5 es users 4096 Mar 4 11:37 0
drwx------ 2 es users 4096 Mar 4 12:06 _state
scp -r kEr6n5PJQ1COdhgXDpApnA XX.XX.XX.XX:/opt/huawei/data_bak/shakespeare/0/
建议:如果源集群和目的集群之间的网络是互通的,可以直接两台机器之间直接拷贝;
2.5 多分片的备份方式
如果索引中包含多个主分片,并且分片分布在不同的服务器上,则需要分别备份到备份服务器上,不可以人为进行合并;
建议:有条件的话,可以将多个分片通过reroute的move命令,移动到同一个节点上,可以简化备份和恢复操作;
3. 目的集群上恢复索引
3.1 准备
恢复索引就是从备份服务器上,将备份的索引恢复到新集群的Datanode节点上,恢复过程中需要的Datanode节点的数量,和源集群上索引分布的Datanode节点数量相等,即如果索引只有1个分片,或者所有分片都集中在1个Datanode节点,则只需要恢复到1个Datanode节点即可,如果索引有4个分片,分布到3台Datanode上,则需要分别恢复到新集群上的3台Datanode上,依次类推;
3.2 恢复索引文件
下面以恢复一个索引的一个分片为例进行说明:
登陆到新集群的一台Datanode服务器上,进入ES Data目录下的indices子目录下,参考 /opt/huawei/data/nodes/0/indices;
从备份服务器上,将需要恢复索引的对应索引目录复制到该目录下。
cd /opt/huawei/data/nodes/0/indices/
cp -r /opt/huawei/data_bak/shakespeare/0/kEr6n5PJQ1COdhgXDpApnA/ .
[es@host-10-33-114-216 kEr6n5PJQ1COdhgXDpApnA]$ ll
drwx------ 4 es es 4096 Mar 5 17:07 0
drwx------ 2 es es 4096 Mar 5 17:01 _state
可以看到,此处的整个索引目录,都是从源索引的备份目录中获取来的;
[es@host-10-33-114-216 kEr6n5PJQ1COdhgXDpApnA]$ cd 0
[es@host-10-33-114-216 0]$ ll
total 8
drwx------ 2 es es 4096 Mar 5 17:07 index
drwx------ 2 es es 4096 Mar 5 17:01 _state
drwx------ 2 es es 4096 Mar 5 17:07 translog
3.3 加载索引
待索引的所有分片,都已经拷贝到对应的Datanode服务器上时,再进行索引加载操作;
当集群状态发生变化时,ES集群会自动发现并加载新索引,可以通过重启节点、创建/删除索引、调整副本数等方式触发集群状态刷新,建议可以通过触发ES集群自动修复来进行集群状态刷新;
curl -XPOST "http://XX.XX.XX.XX:9200/_cluster/reroute?retry_failed=true"
集群状态刷新后,依次检查索引状态和分片状态,可以看到对应索引的状态已经变成GREEN,并且分片的状态已经变成 STARTED,恢复正常;
curl -XGET 'http://XX.XX.XX.XX:9200/_cat/indices/shakespeare?v'
health status index uuid pri rep docs.count pri.store.size
green open shakespeare kEr6n5PJQ1COdhgXDpApnA 1 1 335901 202.6mb
curl -XGET 'http://XX.XX.XX.XX:9200/_cat/shards/shakespeare?v'
index shard prirep state docs store ip node
shakespeare 0 p STARTED 335901 201.8mb 10.33.114.216 node-01
至此,该索引的数据已经恢复,如果有多个索引需要恢复,可以重复执行以上步骤;
4. 常见问题
4.1 当索引已经迁移到新集群中后,如果通过手工删除后,再次采用该方式无法迁移
原因:ES中自动识别索引,是通过索引名称和uuid来唯一确定的,虽然该索引已经删除,但是在ES集群中的信息已经将该索引标记为删除状态,无法再次通过自动识别进行迁移;
解决方法:需要将源索引改名后重新迁移;
4.2 当索引有多个分片,只迁移了部分分片进行恢复后,索引状态为RED
原因:当只迁移了部分分片就恢复时,由于ES找不到其他未迁移的分片,导致索引状态为RED;
解决方法:将未恢复的分片拷贝到某个datanode节点上,再通过 allocate_stale_primary 命令,强制恢复;
shard为准备恢复的shard id,node表示在该节点上已经存在该shard的数据,index为索引名称;
curl -XPOST "http://127.0.0.1:9200/_cluster/reroute" -H "Content-Type: application/json" -d '{
"commands": [
{
"allocate_stale_primary": {
"index": "shakespeare",
"shard": 0,
"node": "node-01",
"accept_data_loss": true
}
}
]
}'