1.概述
大数据组件中数据量较大且都是分布式的,跨集群的迁移主要用作备份。
2.HDFS
可以通过分析editlog来确定数据变更的分区,然后通过distcp命令来完成。
3.HBase
可以通过TimeRange来查询增量数据
在old cluster中每一个regionserver下
然后执行命令,add_peer new cluster id
4.es
可以通过增量快照的方式
注册一个仓库,存放快照,记住,这里不是生成快照,只是注册一个仓库
curl -XPUT 'http://*.*.*.*:9200/_snapshot/my_backup' -H 'Content-Type: application/json' -d '{
"type": "fs",
"settings": {
"location": "/data/es_backup",
"compress": true
}
}'
查看仓库信息:
curl -XGET 'http://*.*.*.*:9200/_snapshot/my_backup?pretty'
恢复快照:
curl -XPOST "*.*.*.*:9200/_snapshot/my_backup/snapshot_1/_restore"-d '{
"indices": "index_1,index_2",
"ignore_unavailable": "true",
"include_global_state": false,
"rename_pattern": "index_(.+)",
"rename_replacement": "restored_index_$1" }'
创建全部快照,也可以根据索引创建快照
curl -XPUT '*.*.*.*:9200/_snapshot/my_backup/snapshot_20171020?wait_for_completion=true&pretty'