当前位置: 首页 > news >正文

企业seo顾问公司/深圳关键词优化公司哪家好

企业seo顾问公司,深圳关键词优化公司哪家好,网站建设开发感悟,做网站深紫色搭配什么颜色一、介绍 Scrapy 是一种快速的高级 web crawling 和 web scraping 框架,用于对网站进行爬网并从其页面提取结构化数据。它可以用于广泛的用途,从数据挖掘到监控和自动化测试。 二、架构 三、组件 Scrapy Engine 引擎负责控制数据流在系统中所有组件中…

一、介绍

Scrapy 是一种快速的高级 web crawling 和 web scraping 框架,用于对网站进行爬网并从其页面提取结构化数据。它可以用于广泛的用途,从数据挖掘到监控和自动化测试。

二、架构

在这里插入图片描述
在这里插入图片描述

三、组件

Scrapy Engine

引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。

调度器(Scheduler)

调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。

下载器(Downloader)

下载器负责获取页面数据并提供给引擎,而后提供给spider。

Spiders

Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。 更多内容请看 Spiders 。

Item Pipeline

Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数据库中)。 更多内容查看 Item Pipeline 。

下载器中间件(Downloader middlewares)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response(也包括引擎传递给下载器的Request)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。更多内容请看 下载器中间件(Downloader Middleware) 。

一句话总结就是:处理下载请求部分

Spider中间件(Spider middlewares)

Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。更多内容请看 Spider中间件(Middleware) 。

一句话总结就是:处理解析部分

数据流(Data flow)

Scrapy 中的数据流由引擎控制,其过程如下:

  • Engine 首先打开一个网站,找到处理该网站的 Spider 并向该 Spider 请求第一个要爬取的 URL。
  • Engine 从 Spider 中获取到第一个要爬取的 URL 并通过 Scheduler 以 Request 的形式调度。
  • Engine 向 Scheduler 请求下一个要爬取的 URL。
  • Scheduler 返回下一个要爬取的 URL 给 Engine,Engine 将 URL 通过 Downloader Middlewares 转发给 Downloader 下载。
  • 一旦页面下载完毕, Downloader 生成一个该页面的 Response,并将其通过 Downloader Middlewares 发送给 Engine。
  • Engine 从下载器中接收到 Response 并通过 Spider Middlewares 发送给 Spider 处理。
  • Spider 处理 Response 并返回爬取到的 Item 及新的 Request 给 Engine。
  • Engine 将 Spider 返回的 Item 给 Item Pipeline,将新的 Request 给 Scheduler。
  • 重复第二步到最后一步,直到 Scheduler 中没有更多的 Request,Engine 关闭该网站,爬取结束。

通过多个组件的相互协作、不同组件完成工作的不同、组件对异步处理的支持,Scrapy 最大限度地利用了网络带宽,大大提高了数据爬取和处理的效率。

官方文档

console.log("公众号:虫术")
Blog:http://404nofoundx.top/
http://www.jmfq.cn/news/5206123.html

相关文章:

  • 武汉汉口做网站公司/网络营销培训机构
  • 做会员卡的网站在线制作/seo搜索引擎专员
  • 网站建设项目的工作分解/网络营销的工具和方法
  • 硬盘做网站空间/网站推广优化教程
  • 在线网站开发/博客推广的方法与技巧
  • 深圳市手机网站建设/北京seo排名优化网站
  • 北京网站建设求职简历/大一网页设计作业成品
  • 西安网站开发建/谷歌推广平台
  • wordpress十大表格插件/衡阳seo快速排名
  • 南山商城网站建设/长尾关键词爱站网
  • 英文网站的首页怎么做/学校教育培训机构
  • 网站首页怎么用dw做/观看b站的广告网站平台
  • wordpress 手机管理员密码/关键词优化seo
  • 高明专业网站建设哪家好/百度搜索优化建议
  • 外贸营销网站建设公司排名/班级优化大师简介
  • 做公司网站需要准备什么/代运营公司是怎么运营的
  • 住房和城乡建设部网站施工员证/seo查询平台
  • 什么软件可以在手机上做装修设计/天津网站seo设计
  • 色一把做最好的看片网站/双滦区seo整站排名
  • 网站多语言建设/网站域名解析ip查询
  • 定制型网站一般价格/宁波做seo推广企业
  • 体彩网站开发/百度推广营销
  • asp.net做网站教程/seo软件全套
  • 免费ppt资源网站/seo托管服务
  • 杭州微网站建设/网站推广关键词排名优化
  • vps做网站用什么系统/天津百度推广公司地址
  • 静态网站模板源码下载/重庆关键词优化平台
  • 网站建设得缺点/成都短视频代运营
  • 火狐浏览器网站开发人员/最近新闻大事件
  • 做网站的/英文seo