ElasticSearch 翻页查询

相对于Ealsticsearch的search API, 翻页查询可以将查询结果集分页返回,而不是将所有的结果放在一个page返回。如果查询的结果集包含大量的数据,就可以用到翻页查询(Scroll) API,比如有200K条数据,可以将它们分成20次请求,每次只返回10k条查询结果. 有点类似于数据库里面的游标。

要使用翻页查询,需要在search请求中指定一个参数: scroll。这个参数是告诉elasticsearch要保留多久当前这个Search Context, 可以理解为Session 的keep alive。这样下次查询的时候只需要传递一个 scroll id就可以了。例如?scroll=5m (保留5分钟)。
curl -XGET 'localhost:9200/twitter/tweet/_search?scroll=1m' -d '
{
"query": {
"match" : {
"title" : "elasticsearch"
}
}
}
'
上面的请求的response里面会包含一个 _scroll_id,这个 _scroll_id必须加到下一次请求的body里面。 需要注意的是,每次新的查询必需用最近返回的 _scroll_id
 
   

curl -XGET 'localhost:9200/_search/scroll' -d'
{
"scroll" : "1m",
"scroll_id" : "c2Nhbjs2OzM0NDg1ODpzRlBLc0FXNlNyNm5JWUc1"
}
'

可以看到上面的请求里面不再需要将第一次的查询参数(比如title == 'elasticsearch')放到request body里面,因为elasticsearch会根据这个scroll_id查到这个id对应的Search Context。
每次的翻页查询都会返回下一页的结果集,直到所有的查询结果都已经返回了,这个时候返回的response里面的hits就会是空的,所以我们可以用 hits来判断是不是查询结束了。

Clear 翻页API
默认Elasticsearch会删除所有timeout的scroll_id对就的search context。但用户也可以提前删除这些scroll_id, 因为如果查询非常频繁时,保留这么多的search context也是需要很多开销的。下面是关于怎么显式地删除这些scroll_id。
curl -XDELETE localhost:9200/_search/scroll -d '
{
"scroll_id" : ["c2Nhbjs2OzM0NDg1ODpzRlBLc0FXNlNyNm5JWUc1"]
}'


你也可以把所有的scroll_id放到一个数组里面一次删除:
 
   

curl -XDELETE localhost:9200/_search/scroll -d '
{
"scroll_id" : ["c2Nhbjs2OzM0NDg1ODpzRlBLc0FXNlNyNm5JWUc1", "aGVuRmV0Y2g7NTsxOnkxaDZ"]
}'

要删除所有的scroll_id,可以指定all这个参数:
curl -XDELETE localhost:9200/_search/scroll/_all

你可能感兴趣的:(Elasticsearch)