MongoDB删除重复数据

使用MongoDB存储爬取到信息,但是由于考虑不周,没有对重复的数据进行去重后才插入数据库,导致有很多重复的数据,需要根据唯一性的id字段删除MongoDB里面的重复数据。

步骤如下:

①导出JSON格式数据
mongoexport -d database_name -c collection_name -o filename.json

其中:
database_name:数据库名
collection_name:集合名
filename.json:保存的json文件名

②删除旧集合
db.collection_name.remove({})
③新建索引
db.collection_name.create_index({"jobId":1}, {"unique":true})

其中:
{"jobId":1}:索引字段,1:升序,-1:降序
{"unique":true}:索引是否唯一

④导入数据
mongoimport -d database_name -c collection_name filename.json

你可能感兴趣的:(MongoDB删除重复数据)