高端广告公司名字/北京专门做seo
只写干货
写了个爬虫,爬了点数据。由于没有做好爬虫重启和数据库检索,爬取的数据有重复。
如何查看未重复数据的数量:
进入命令行,切换到mongo shell;
use 你的数据库名;
db.要操作的表名.distinct("针对数据进行区分的键名").length
编写一个去重的脚本
mongodb 在内部是用js来管理的。所以,写一个js文件:
var duplicates = [];db.你的collection名.aggregate([{ $group: {_id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"},dups: { "$addToSet": "$_id" },count: { "$sum": 1 }}},{ $match: {count: { "$gt": 1 }}}
],
{allowDiskUse: true}).forEach(function(doc) {doc.dups.shift();doc.dups.forEach( function(dupId){duplicates.push(dupId);})
})
printjson(duplicates);
db.你的collection名.remove({_id:{$in:duplicates}})
执行js脚本
在shell中,注意不是在mongo shell 中,输入mongo 你的数据库名 刚才写的js文件的绝对路径
不到2秒就完事儿了,执行速度还可以。不过也可能是我数据量比较小,原始数据约148000条,重复的约有14000条。
后记
重要的还是要做index,在插入的时候就检查。