ElasticSearch6:解决大批量删除数据,导致超时的问题

前言:

最近在开发过程遇到个十分棘手的事情,在项目中,需要将某天的ES中的数据删除,但是当天产生的数据量非常大,大约是50W+的一个状态。用postman测了一下,删除响应时间大约在一分半左右。这个时间显然会在程序中超时报错。
这个问题在网上没有找到合适的方法,所以只能啃ES的官方API寻求解决的方法。

官方API:

这里贴出官方API的地址:
ES6.5官方API

解决问题:

先找到 delete_by_query ,在他的params中找到了一个非常有意思的字段:waitForCompletion
ElasticSearch6:解决大批量删除数据,导致超时的问题_第1张图片我们看到,设置这个字段为true的话请求直到query完成才返回,这不正是打出大数据超时的原因吗,如果我们设置成false呢?是不是就是立即返回,不等待删除的结果,这样不就不会出现超时的现象了吗?

动手搞一下!

waitForCompletion在params中位置是这样的:

{
	index:
	······
	waitForCompletion:false
	body:{
	······
	}
}

好了,params搞定,用deleteByQuery()调用一下就完事了。观察到程序立即返回了,用postman观察数据量在不断的减少,说明ES后台在执行删除的任务。

完美解决!

但是,随之而来的一个问题,我怎么才能知道我的删除是否完成了呢?

这就要依靠ES的任务管理机制。前面的delete_by_query会返回一个任务ID(taskId),我们可以根据任务ID查询任务是否完成。
返回ID:

怎么做呢?

再看API

API中有查询task的方法—task.get()
ElasticSearch6:解决大批量删除数据,导致超时的问题_第2张图片
看到params中的taskId,只需要将taskId传入,就会返回task的状态信息。可以根据状态信息的内容判断任务是否完成。
返回的状态信息大致是这样的:

如图,返回信息中有完成状态信息,“completed”为true,任务已完成,false表示任务未完成,查询不到任务为报一个error。

params的格式:

{
	taskId : yourTaskID
}

传入client.tasks.get(),根据返回的状态信息判断删除任务是否完成。

以上,谢谢!

你可能感兴趣的:(ElasticSearch学习)