当前位置：首页 > news >正文

高端广告公司名字/北京专门做seo

news 2025/6/30 11:54:57

高端广告公司名字,北京专门做seo,松江新城做网站,没有网站可以做哪些互联网广告推广只写干货写了个爬虫，爬了点数据。由于没有做好爬虫重启和数据库检索，爬取的数据有重复。如何查看未重复数据的数量：进入命令行，切换到mongo shell；use 你的数据库名；db.要操作的表名.distinct("针对数…

只写干货

写了个爬虫，爬了点数据。由于没有做好爬虫重启和数据库检索，爬取的数据有重复。

`如何查看未重复数据的数量：`

进入命令行，切换到mongo shell；
use 你的数据库名；
db.要操作的表名.distinct("针对数据进行区分的键名").length

`编写一个去重的脚本`

mongodb 在内部是用js来管理的。所以，写一个js文件：

var duplicates = [];db.你的collection名.aggregate([{ $group: {_id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"},dups: { "$addToSet": "$_id" },count: { "$sum": 1 }}},{ $match: {count: { "$gt": 1 }}}
],
{allowDiskUse: true}).forEach(function(doc) {doc.dups.shift();doc.dups.forEach( function(dupId){duplicates.push(dupId);})
})
printjson(duplicates);
db.你的collection名.remove({_id:{$in:duplicates}})

执行js脚本

在shell中，注意不是在mongo shell 中，输入mongo 你的数据库名刚才写的js文件的绝对路径

不到2秒就完事儿了，执行速度还可以。不过也可能是我数据量比较小，原始数据约148000条，重复的约有14000条。

后记

重要的还是要做index，在插入的时候就检查。

http://www.jmfq.cn/news/4857895.html

相关文章：

wordpress4.6 中文/上海全国关键词排名优化

网站解析/种子搜索引擎在线

07年以前东莞有多乱/宁波网站seo诊断工具

网页qq无法使用快捷登录/北京做网络优化的公司

网站开发业务怎么做/宁波seo外包服务商

网站开发开题报告/网络品牌推广

洛阳网站推广怎么做/在线工具seo

我在相亲网站做红娘的/网站推广建设

做动画网站去哪采集/网络舆情案例分析

互联网网站备案/怎么做网站推广和宣传

沈阳网站建设价格/一站式推广平台

深圳手机商城网站设计/河南网站推广公司

网站建设品牌好/百度销售系统登录

网站劫持必须做系统嘛/品牌运营包括哪些内容

专做网站的公司/加强服务保障满足群众急需需求

湖州高端网站设计/知乎营销推广

青州做网站的网络公司/外链网盘系统

专业足球网站建设/网推平台

移动互联网技术网站/推广发帖网站

wordpress移动导航栏设置/长沙seo优化推荐

网页设计网站模板/百度热搜榜今日头条排名

做内贸什么网站资源比较多/市场营销图片高清

需要做网站建设的公司/百度知道首页网

广东企业网站建设公司价格/外链链接平台

论述网站建设流程/正规网站优化公司

网站模板文件怎么下载/廊坊seo排名优化

网站开发协议/广州今天刚刚发生的重大新闻

专业做面膜的网站/seo课培训

wordpress跳转外链/西安优化排名推广

苏州网站建设制作服务商/产品推广方法