数据迁移

1.概述

     大数据组件中数据量较大且都是分布式的,跨集群的迁移主要用作备份。

2.HDFS

  可以通过分析editlog来确定数据变更的分区,然后通过distcp命令来完成。

3.HBase

  可以通过TimeRange来查询增量数据

  在old cluster中每一个regionserver下

   

    

      hbase.replication

      true

    

  然后执行命令,add_peer new cluster id

4.es

  可以通过增量快照的方式

注册一个仓库,存放快照,记住,这里不是生成快照,只是注册一个仓库

curl -XPUT 'http://*.*.*.*:9200/_snapshot/my_backup' -H 'Content-Type: application/json' -d '{
"type": "fs",
"settings": {
"location": "/data/es_backup",
"compress": true
}
}'

 查看仓库信息:

curl -XGET 'http://*.*.*.*:9200/_snapshot/my_backup?pretty'

恢复快照:

curl -XPOST "*.*.*.*:9200/_snapshot/my_backup/snapshot_1/_restore"-d '{
"indices": "index_1,index_2",
"ignore_unavailable": "true",
"include_global_state": false,
"rename_pattern": "index_(.+)",
"rename_replacement": "restored_index_$1" }'

创建全部快照,也可以根据索引创建快照

curl -XPUT '*.*.*.*:9200/_snapshot/my_backup/snapshot_20171020?wait_for_completion=true&pretty'

你可能感兴趣的:(数据迁移)