如何遍历数据量亿级别Mongo库

场景介绍

在使用Mongo这种非关系型数据库过程中,往往存储了海量的数据,这些数据的数据结构非常松散,数据类型比较复杂。对于从海量数据中提取或分析数据,需要遍历Mongo库的情况经常出现,这里介绍两种比较有效的方法,均在亿级别的生产库中,多次使用过。

方法一:利用时间戳

在存储的数据中,对时间戳字段,建立索引,如下方数据时间戳字段为update_time

{"_id":"6214627359000222889","_class":"com.alibaba.fastjson.JSONObject","update_time": ISODate("2018-07-05T14:26:42.018Z"),"idcard":"342522199406220025","gender":"女","age":"24","name":"曹××"}

这种方法遍历,我们需要一个起点时间,和结束时间,然后按照这个时间段进行扫库,亿级别的数据,不可能全部取出,可每次取出一定数量,比如1K条,排序后根据最后一条的时间戳,与结束时间根据你是逆序遍历,还是顺序遍历进行判断,如此循环,Demo如下。


>>>阅读全文

你可能感兴趣的:(如何遍历数据量亿级别Mongo库)