遇到问题--python--mongodb--pymongo.errors.CursorNotFound: Cursor not found

情况

使用代码如下:

import pymongo
client = pymongo.MongoClient()
db = client['db_name']
col = db['col_name']
demos = col.find({})

for cursor  in demos:
	deal_data_analysis(cursor)

报错如下:

pymongo.errors.CursorNotFound: Cursor not found

原因分析

col.find()获得的demos是cursor游标位置,具体使用到某个数据时,才会去查询数据库把数据拿出来。它返回的不是所有的数据,而实际上是一个“cursor”。

它的默认原理是 (具体数字需要查询mongodb官网,不同版本默认的阈值有可能有差异) :第一次向数据库查询 101 个文档,或 大于1M小于16M的数据文档,取决于哪个条件先满足;之后每次 cursor 中的文档用尽后,查询 4 MB 的文档。

另外,find() 默认返回的是 一个 10 分钟无操作后超时的 cursor。如果我一个 batch 的文档十分钟内没处理完,过后再处理完了,再用同一个 cursor id 向服务器取下一个 batch,这时候 cursor id 当然已经过期了,这也就能解释为啥我得到 cursor id not found 无效的错误了。

思路总结:默认 mongo server维护连接的时间窗口是十分钟;默认 单次从 server获取数据是101条或者 大于1M小于16M的数据,所以默认情况下,如果10分钟内未能处理完数据,则抛出该异常。

解决方式

解决的方式有以下几种,适应不同场景,大家需要根据自己的应用场景进行选择和调整参数:

方案一 使用batch_size()

demos

你可能感兴趣的:(遇到问题解决方案集锦,python,mongodb,python,mongodb,pymongo,cursornotfound,cursor)