当前位置: 首页 > news >正文

高端广告公司名字/北京专门做seo

高端广告公司名字,北京专门做seo,松江新城做网站,没有网站可以做哪些互联网广告推广只写干货写了个爬虫,爬了点数据。由于没有做好爬虫重启和数据库检索,爬取的数据有重复。如何查看未重复数据的数量:进入命令行,切换到mongo shell;use 你的数据库名;db.要操作的表名.distinct("针对数…

只写干货

写了个爬虫,爬了点数据。由于没有做好爬虫重启和数据库检索,爬取的数据有重复。

如何查看未重复数据的数量:

  1. 进入命令行,切换到mongo shell;
  2. use 你的数据库名;
  3. db.要操作的表名.distinct("针对数据进行区分的键名").length

编写一个去重的脚本

mongodb 在内部是用js来管理的。所以,写一个js文件:
var duplicates = [];db.你的collection名.aggregate([{ $group: {_id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"},dups: { "$addToSet": "$_id" },count: { "$sum": 1 }}},{ $match: {count: { "$gt": 1 }}}
],
{allowDiskUse: true}).forEach(function(doc) {doc.dups.shift();doc.dups.forEach( function(dupId){duplicates.push(dupId);})
})
printjson(duplicates);
db.你的collection名.remove({_id:{$in:duplicates}})


执行js脚本

shell中,注意不是在mongo shell 中,输入mongo 你的数据库名 刚才写的js文件的绝对路径

不到2秒就完事儿了,执行速度还可以。不过也可能是我数据量比较小,原始数据约148000条,重复的约有14000条。

后记

重要的还是要做index,在插入的时候就检查。

http://www.jmfq.cn/news/4857895.html

相关文章:

  • wordpress4.6 中文/上海全国关键词排名优化
  • 网站解析/种子搜索引擎在线
  • 07年以前东莞有多乱/宁波网站seo诊断工具
  • 网页qq无法使用快捷登录/北京做网络优化的公司
  • 网站开发业务怎么做/宁波seo外包服务商
  • 网站开发 开题报告/网络品牌推广
  • 洛阳网站推广怎么做/在线工具seo
  • 我在相亲网站做红娘的/网站推广建设
  • 做动画网站去哪采集/网络舆情案例分析
  • 互联网网站备案/怎么做网站推广和宣传
  • 沈阳网站建设价格/一站式推广平台
  • 深圳手机商城网站设计/河南网站推广公司
  • 网站建设品牌好/百度销售系统登录
  • 网站劫持必须做系统嘛/品牌运营包括哪些内容
  • 专做网站的公司/加强服务保障 满足群众急需需求
  • 湖州高端网站设计/知乎营销推广
  • 青州做网站的网络公司/外链网盘系统
  • 专业足球网站建设/网推平台
  • 移动互联网技术网站/推广发帖网站
  • wordpress移动导航栏设置/长沙seo优化推荐
  • 网页设计网站模板/百度热搜榜今日头条排名
  • 做内贸什么网站资源比较多/市场营销图片高清
  • 需要做网站建设的公司/百度知道首页网
  • 广东企业网站建设公司价格/外链链接平台
  • 论述网站建设流程/正规网站优化公司
  • 网站模板文件怎么下载/廊坊seo排名优化
  • 网站开发协议/广州今天刚刚发生的重大新闻
  • 专业做面膜的网站/seo课培训
  • wordpress跳转外链/西安优化排名推广
  • 苏州网站建设制作服务商/产品推广方法