转载自:http://www.mongoing.com/eshu_point_in_time_recovery
在生产环境中,尽管我们尽力避免,但是还是会遇到误操作或是其他情况的出现。
这时候我们就需要进行Point in time recovery了。
我们point in time recovery 是基于oplog进行的,所以请确保oplog的size足够大,也请确保定时有冷备份(或是延时备份)
切记:在出现问题的时候,我们第一时间要做的时保护犯罪现场,停止应用写入,保护数据库数据与状态。有可能的话,在进行恢复之前,将现在的oplog进行一次全备份,也将现在数据进行一次全备份。
以下是通过冷备份+oplog进行point in time recovery的例子(例子仅供参考,实际中请根据情况来操作,过程需严谨。):
zhou1:PRIMARY> use test3 switched to db test3 zhou1:PRIMARY> zhou1:PRIMARY> for (var i=0;i<1000;i++){ ... db.a.save({"a":i}) ... }
zhou1:PRIMARY> db.a.find() { "_id" : ObjectId("54655693f169ef6a4b9cf9b4"), "a" : 0 } { "_id" : ObjectId("54655693f169ef6a4b9cf9b5"), "a" : 1 } { "_id" : ObjectId("54655693f169ef6a4b9cf9b6"), "a" : 2 } { "_id" : ObjectId("54655693f169ef6a4b9cf9b7"), "a" : 3 } { "_id" : ObjectId("54655693f169ef6a4b9cf9b8"), "a" : 4 } { "_id" : ObjectId("54655693f169ef6a4b9cf9b9"), "a" : 5 } { "_id" : ObjectId("54655693f169ef6a4b9cf9ba"), "a" : 6 } { "_id" : ObjectId("54655693f169ef6a4b9cf9bb"), "a" : 7 } { "_id" : ObjectId("54655693f169ef6a4b9cf9bc"), "a" : 8 } { "_id" : ObjectId("54655693f169ef6a4b9cf9bd"), "a" : 9 } { "_id" : ObjectId("54655693f169ef6a4b9cf9be"), "a" : 10 } { "_id" : ObjectId("54655693f169ef6a4b9cf9bf"), "a" : 11 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c0"), "a" : 12 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c1"), "a" : 13 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c2"), "a" : 14 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c3"), "a" : 15 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c4"), "a" : 16 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c5"), "a" : 17 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c6"), "a" : 18 } { "_id" : ObjectId("54655693f169ef6a4b9cf9c7"), "a" : 19 } Type "it" for more zhou1:PRIMARY> db.a.find().count() 1000
# mongodump --port 37017 -d test3 -c a -o /tmp/test3/
zhou1:PRIMARY> db.a.save({a:19999}) zhou1:PRIMARY> db.a.find().count() 1001
zhou1:PRIMARY> db.a.remove({"a":10}) zhou1:PRIMARY> db.a.find().count() 1000
zhou1:PRIMARY> db.a.save({a:9999}) zhou1:PRIMARY> db.a.find().count() 1001
a.我们先整体备份oplog(保护犯罪现场,哈哈,防止出现其他问题,有可能的话,还可以将现在的数据进行一次备份,防止如果操作失败造成的数据问题。)
# mongodump --port=37017 -d local -c oplog.rs -o /tmp/oplog/
b.再取出dump之后到删除之前的oplog。
先根据时间戳和操作特性找到操作5的ts
zhou1:PRIMARY> db.oplog.rs.find({"op" : "d","ns" : "test3.a",},{ts:1}).pretty() { "ts" : Timestamp(1415928580, 1) }
再根据这个ts 和dump的时间ts 来查询dump之后,删除之前的oplog。
zhou1:PRIMARY> db.oplog.rs.find({ts:{$lt:Timestamp(1415928580, 1),$gt: Timestamp(1415928529, 1000)}}).pretty() { "ts" : Timestamp(1415928569, 1), "h" : NumberLong("-4718889676574368147"), "v" : 2, "op" : "i", "ns" : "test3.a", "o" : { "_id" : ObjectId("54655af9e6e268b4ebe284c5"), "a" : 19999 } }
由于生产环境中会是很多操作,所以将其dump出来。
# mongodump --port 37017 -d local -c oplog.rs -q '{ts:{$lt:Timestamp(1415928580, 1),$gt: Timestamp(1415928529, 1000)}}' -o /tmp/oplog1/
再同理找到操作5之后的操作。将其dump出来
mongodump --port 37017 -d local -c oplog.rs -q '{ts:{$gt:Timestamp(1415928580, 1)}}' -o /tmp/oplog2/
# mongorestore --port 37017 -d test3 -c a /tmp/test3/test3/a.bson
检查下
zhou1:PRIMARY> db.a.find().count() 1000 zhou1:PRIMARY> db.a.find({a:10}) { "_id" : ObjectId("54655693f169ef6a4b9cf9be"), "a" : 10 }
我们发现,数据恢复到操作5之前了。
# mongooplog --port=37017 -d test3 -c a --from xxxx(oplog1恢复到的机器) zhou1:PRIMARY> use test3 switched to db test3 zhou1:PRIMARY> db.a.find().count() 1001 zhou1:PRIMARY> db.a.find({a:19999}) { "_id" : ObjectId("54655af9e6e268b4ebe284c5"), "a" : 19999 }
# mongooplog --port=37017 -d test3 -c a --from xxxx(oplog1恢复到的机器) zhou1:PRIMARY> use test3 switched to db test3 zhou1:PRIMARY> db.a.find().count() 1002 zhou1:PRIMARY> db.a.find({a:9999}) { "_id" : ObjectId("54655b0fe6e268b4ebe284c6"), "a" : 9999 }