删除大量数据,无论是在哪种数据库中,都是一个普遍性的需求。除了正常的业务需求,我们需要通过这种方式来为数据库“瘦身”。
为什么要“瘦身”呢?
所以,对于那些无用的数据,我们会定期删除。
对于那些很少用到的数据,则会定期归档。归档,一般是将数据写入到归档实例或抽取到大数据组件中。归档完毕后,会将对应的数据从原实例中删除。
一般来说,这种删除操作涉及的数据量都比较大。
对于这类删除操作,很多开发童鞋的实现就是一个简单的DELETE操作。看上去,简单明了,干净利落。
但是,这种方式,危害性却极大。
以 MySQL 为例:
即使是分布式数据库,如TiDB,如果一次删除了大量数据,这批数据在进行Compaction时有可能会触发流控。
所以,对于线上的大规模删除操作,建议分而治之。具体来说,就是批量删除,每次只删除一部分数据,分多次执行。
就如何删除大量数据,接下来我们看看MongoDB中的落地方案。
本文主要包括以下四部分内容。
在MongoDB中删除数据,可通过以下三种方式:
接下来,对比下这三种方式的执行效率。
环境:MongoDB 3.4.4,副本集。
测试思路:分别使用 remove、deleteMany、bulkWrite 删除 10w 条记录(每批删除 5000 条),交叉执行 5 次。
// delete_date是删除条件
var delete_date = new Date("2021-01-01T00:00:00.000Z");
// 获取程序开始时间
var start_time = new Date();
// 获取满足删除条件的记录数
rows = db.test_collection.find({"createtime": {$lt: delete_date}}).count()
print("total rows:", rows);
// 定义每批需要删除的记录数
var batch_num = 5000;
while (rows > 0) {
// rows也可理解为剩余记录数
// 如果剩余记录数小于batch_num,则将剩余记录数赋值给batch_num
// 为什么要怎么做,后面会提到。
if (rows < batch_num) {
batch_num = rows;
}
// 获取满足删除条件的最小的5000个_id(ObjectID)
var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
rows = rows - batch_num;
cursor.forEach(function (each_row) {
// 通过remove删除记录,这里指定了"justOne": true,每次只能删除一条记录。
// 为了避免误删除,这里同时指定了主键和删除条件。
db.test_collection.remove({'_id': each_row["_id"], "createtime": {'$lt': delete_date}}, {
"justOne": true,
w: "majority"
})
});
}
// 获取程序结束时间
var end_time = new Date();
// 两者的差值,即为程序执行时长
print((end_time - start_time) / 1000);
实例思路同remove类似,只不过会将待删除的_id放到一个数组中,最后再通过deleteMany一次性删除。
具体代码如下:
var delete_date = new Date("2021-01-01T00:00:00.000Z");
var start_time = new Date();
rows = db.test_collection.find({"createtime": {$lt: delete_date}}).count()
print("total rows:", rows);
var batch_num = 5000;
while (rows > 0) {
if (rows < batch_num) {
batch_num = rows;
}
var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
rows = rows - batch_num;
var delete_ids = [];
// 将满足条件的主键值放入到数组中。
cursor.forEach(function (each_row) {
delete_ids.push(each_row["_id"]);
});
// 通过deleteMany一次删除5000条记录。
db.test_collection.deleteMany({
'_id': {"$in": delete_ids},
"createTime": {'$lt': delete_date}
},{w: "majority"})
}
var end_time = new Date();
print((end_time - start_time) / 1000);
实现思路同deleteMany类似,也是将待删除的_id放到一个数组中,最后再调用bulkWrite进行删除。
具体代码如下:
var delete_date = new Date("2021-01-01T00:00:00.000Z");
var start_time = new Date();
rows = db.test_collection.find({"createtime": {$lt: delete_date}}).count()
print("total rows:", rows);
var batch_num = 5000;
while (rows > 0) {
if (rows < batch_num) {
batch_num = rows;
}
var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
rows = rows - batch_num;
var delete_ids = [];
cursor.forEach(function (each_row) {
delete_ids.push(each_row["_id"]);
});
db.test_collection.bulkWrite(
[
{
deleteMany: {
"filter": {
'_id': {"$in": delete_ids},
"createTime": {'$lt': delete_date}
}
}
}
],
{ordered: false},
{writeConcern: {w: "majority", wtimeout: 100}}
)
}
var end_time = new Date();
print((end_time - start_time) / 1000);
接下来,看看三者的执行效率。
结合表中的数据,可以看出,
所以线上如果要删除大量数据,推荐使用 deleteMany + ObjectID 进行批量删除。
虽然是批量删除,但在MySQL中,如果没控制好节奏,还是很容易导致主从延迟。在MongoDB中,其实也有类似的担忧,不过我们可以通过 Write Concern 进行规避。
Write Concern,可理解为写安全策略,简单来说,它定义了一个写操作,需要在几个节点上应用(Apply)完,才会给客户端反馈。
看下面这个原理图。
图中是一个一主两从的副本集,设置了w: "majority",代表一个写操作,需要等待副本集中绝大多数节点(本例中是两个)应用完,才能给客户端反馈。
在前面的代码中,无论是remove,deleteMany还是bulkWrite方法,都设置了w: "majority"。
之所以这样设置,一方面是为了保证数据的安全性,毕竟删除操作能在多个节点落盘,另一方面,还能有效降低批量操作可能导致的主从延迟风险。
Write Concern的完整语法如下,
{ w: , j: , wtimeout: }
其中,
w:指定节点数或tags。其有如下取值:
j:是否需要等待对应操作的日志持久化到磁盘中。
在MongoDB中,一个写操作会涉及到三个动作:更新数据,更新索引,写入oplog,这三个动作要么全部成功,要么全部失败,这也是MongoDB单行事务的由来。
对于每个写操作,WiredTiger都会记录一条日志到 journal 中。
日志在写入journal之前,会首先写入到 journal buffer(最大128KB)中。
Journal buffer会在以下场景持久化到 journal 文件中:
wtimeout:超时时长,单位ms。
不设置或设置为0,命令在执行的过程中,如果遇到了锁等待或节点数不满足要求,会一直阻塞。
如果设置了时间,命令在这个时间内没有执行成功,则会超时报错,具体报错信息如下:
rs:PRIMARY> db.test.insert({"a": 1}, {writeConcern: {w: "majority", wtimeout: 100}})
WriteResult({
"nInserted": 1,
"writeConcernError": {
"code": 64,
"codeName": "WriteConcernFailed",
"errInfo": {
"wtimeout": true
},
"errmsg": "waiting for replication timed out"
}
})
其实,最开始的删除程序是下面这个版本。
var delete_date = new Date("2021-01-01T00:00:00.000Z");
var start_time = new Date();
var batch_num = 5000;
while (1 == 1) {
var cursor = db.test_collection.find({"createtime": {$lt: delete_date}}, {"_id": 1}).sort({"_id": 1}).limit(batch_num);
delete_ids = []
cursor.forEach(function (each_row) {
delete_ids.push(each_row["_id"])
});
if (delete_ids.length == 0) {
break;
}
db.test_collection.deleteMany({
'_id': {"$in": delete_ids},
"createtime": {'$lt': delete_date}
}, {w: "majority"})
}
var end_time = new Date();
print((end_time - start_time) / 1000);
相对于效率对比章节的版本,这个版本的代码简洁不少。
但用这个版本在线上删除数据时,发现了一个问题。
在删除到最后一批时,程序会hang在那里。重试了多次依然如此。分析如下:
从最佳实践的角度出发,无论是在哪种数据库中,如果都删除(更新)大量数据,都建议分而治之,分批执行。
在MongoDB中,如果要删除大量数据,推荐使用deleteMany + ObjectID进行批量删除。
为了保证操作的安全性及规避批量操作带来的主从延迟风险,建议在执行删除操作时,将Write Concern设置为w: "majority"。