在 MongoDB 中,单个文档的大小限制为 16MB。如果某个对象(文档)的大小超过 16MB,可以通过以下几种方案解决:
适用场景:需要存储大文件(如图像、视频、文档等)。
fs.files
:存储文件的元数据(如文件名、大小、类型等)。fs.chunks
:存储文件的内容分块。存储大文件 使用 MongoDB 驱动的 GridFS 工具存储文件。
Python 示例:
from pymongo import MongoClient
from gridfs import GridFS
client = MongoClient("mongodb://localhost:27017")
db = client.myDatabase
fs = GridFS(db)
# 存储文件
with open("large_file.bin", "rb") as f:
fs.put(f, filename="large_file.bin")
读取大文件
# 读取文件
file_data = fs.get_last_version(filename="large_file.bin")
with open("output.bin", "wb") as f:
f.write(file_data.read())
适用场景:文档包含大量嵌套数据,导致总大小超过 16MB。
_id
或 parentId
)将这些子文档关联起来。示例:拆分用户日志记录 原始大文档(超 16MB):
json:
{ "_id": "user1", "logs": [ { "timestamp": "2025-01-01", "action": "login" }, ... ] }
拆分为多个小文档:
json:
// 主文档
{ "_id": "user1", "type": "userMetadata" }
// 子文档
{ "parentId": "user1", "logs": [ { "timestamp": "2025-01-01", "action": "login" }, ... ] }
查询时合并:
javascript:
db.metadata.find({ _id: "user1" });
db.logs.find({ parentId: "user1" });
适用场景:需要在文档中存储大量关联对象。
大文档超限前:
json:
{ "_id": "project1", "name": "Big Project", "tasks": [ /* 超大量任务数据 */ ] }
优化后:
json:
// 主文档 { "_id": "project1", "name": "Big Project" } // 任务文档 { "projectId": "project1", "taskId": 1, "taskName": "Task 1", ... }
查询时通过 projectId
关联:
javascript:
db.projects.find({ _id: "project1" }); db.tasks.find({ projectId: "project1" });
适用场景:文档中包含重复数据或可压缩结构(如 JSON 数据)。
Python 实现:
python:
import zlib
from pymongo import MongoClient
client = MongoClient("mongodb://localhost:27017")
db = client.myDatabase
collection = db.myCollection
# 压缩存储
data = {"key": "value" * 10000}
compressed_data = zlib.compress(str(data).encode("utf-8"))
collection.insert_one({"_id": "compressed_doc", "data": compressed_data})
# 解压读取
doc = collection.find_one({"_id": "compressed_doc"})
decompressed_data = zlib.decompress(doc["data"]).decode("utf-8")
适用场景:文档设计冗余或结构不合理。
优化前:
json:
{ "_id": "order1", "customer": { "id": 1, "name": "John Doe" }, "items": [ { "productId": "p1", "productName": "Product 1", "quantity": 2 } ] }
优化后:
json:
{ "_id": "order1", "customerId": 1, "items": [ { "p": "p1", "q": 2 } ] }
适用场景:非结构化大数据(如媒体文件、大型JSON)。