当前位置: 首页 > news >正文

媒体公司网站模板/加盟

媒体公司网站模板,加盟,重庆做营销型网站建设公司,织梦网站 三级域名一个多线程素材下载爬虫,实现多线程素材下载,包含素材包rar,素材图及素材描述,应用了经典的生产者与消费者模式,不过数据没有下载全,容易出现卡死的问题,期待后期能够解决相关问题,可…

一个多线程素材下载爬虫,实现多线程素材下载,包含素材包rar,素材图及素材描述,应用了经典的生产者与消费者模式,不过数据没有下载全,容易出现卡死的问题,期待后期能够解决相关问题,可以算是一个半成品,供大家参考和学习,有更好的多线程解决方案也可以交流!

             

 

几个关键点:

1.素材图片的获取

素材图存在不少情况,无图,单图,多图等都有可能存在

xpath获取图片

imgs = req.xpath('//div[@class="contentinfo"]/table//@src')

条件判断,看是否存在图片

if imgs:

遍历获取图片

for img in imgs:

图片后缀的获取

suffix = os.path.splitext(img)[1]

 

2.是否能够下载,素材是否有下载权限

如果能够下载,获取到下载相关数据,下载路径链接以及素材包名,不能下载则返回为空

if int(req.xpath('//div[@class="download"]/dl[@class="downlink"]/dd[1]/b/text()')[0]) == 0:down_url = req.xpath('//div[@class="download"]/dl[@class="downlink"]/dt/li/a/@href')[0]down_name = f'{h2}/{h2}.rar'down_data=down_url, down_nameprint(down_data)else:down_data=[]

 

3.队列的使用,老生常谈

队列只能传递一个参数!!!

data=text_data,img_data,down_data
self.down_queue.put(data)

 

4.一些能程序能够运行的设置

a.sleep操作延迟

time.sleep(1)

b.队列容器的设定

一般而言,往大了设置,哪个队列数据更多,则设置更多

page_queue = Queue(1000)
down_queue = Queue(2500)

 

运行效果:

             

 

采集效果:

             

 

素材效果:

             

附源码:

# -*- coding: UTF-8 -*-import requests, os,time
from lxml import etree
from fake_useragent import UserAgent
import threading
from queue import Queue# 生产者模式
class Procuder(threading.Thread):def __init__(self, page_queue, down_queue, *args, **kwargs):super(Procuder, self).__init__(*args, **kwargs)self.page_queue = page_queueself.down_queue = down_queueself.ua = UserAgent()self.headers = {"User-Agent": self.ua.random}def run(self):while True:if self.page_queue.empty():breakurl = self.page_queue.get()self.parse(url)def parse(self, url):print(f'>>> 正在抓取列表页 {url} 数据...')response = requests.get(url, headers=self.headers, timeout=6).content.decode("gbk")time.sleep(1)req = etree.HTML(response)urllist = req.xpath('//dl[@class="imglist"]/dt/ul[@class="listimg"]/li/span[@class="listpic"]/a/@href')print(len(urllist))print(urllist)for href in urllist:try:self.parse_page(href)except Exception as e:print(f'获取详情数据失败,错误代码:{e}')def parse_page(self, url):print(f'>>> 正在抓取详情页 {url} 数据...')response = requests.get(url, headers=self.headers, timeout=6).content.decode("gbk")time.sleep(1)req = etree.HTML(response)h2 = req.xpath('//div[@class="arcinfo"]/h2/text()')[0]print(h2)article = req.xpath('//div[@class="contentinfo"]/table//text()')article = ''.join(article)article = article.strip()print(article)texts = f'{h2}\n{article}'text_data=h2,textsimgs = req.xpath('//div[@class="contentinfo"]/table//@src')if imgs:i = 1for img in imgs:img_url = f'http://www.uimaker.com{img}'suffix = os.path.splitext(img)[1]img_name = f'{i}{suffix}'img_data=img_url, img_nameprint(img_data)i = i + 1if int(req.xpath('//div[@class="download"]/dl[@class="downlink"]/dd[1]/b/text()')[0]) == 0:down_url = req.xpath('//div[@class="download"]/dl[@class="downlink"]/dt/li/a/@href')[0]down_name = f'{h2}/{h2}.rar'down_data=down_url, down_nameprint(down_data)else:down_data=[]data=text_data,img_data,down_dataself.down_queue.put(data)# 消费者模式
class Consumer(threading.Thread):def __init__(self, page_queue, down_queue, *args, **kwargs):super(Consumer, self).__init__(*args, **kwargs)self.page_queue = page_queueself.down_queue = down_queueself.ua = UserAgent()self.headers = {"User-Agent": self.ua.random}def run(self):while True:if self.page_queue.empty() and self.down_queue.empty():breaktext_data,img_data,down_data=self.down_queue.get()h2,texts=text_dataos.makedirs(f'{h2}/', exist_ok=True)  #创建目录self.get_text(h2, texts)img_url,img_name=img_dataself.get_downimg(h2, img_url, img_name)if down_data !=[]:down_url, down_name = down_dataself.down(down_url, down_name)# 保存文本内容def get_text(self, h2, texts):print("开始保存文本内容...")with open(f'{h2}/{h2}.txt', 'w', encoding="utf-8") as f:f.write(texts)print(">>>保存文本内容完成!")# 下载图片def get_downimg(self, h2, img_url, img_name):print("开始下载图片...")r = requests.get(img_url, headers=self.headers, timeout=6)time.sleep(1)with open(f'{h2}/{img_name}', 'wb') as f:f.write(r.content)print(">>>下载图片完成!")# 下载素材def down(self, down_url, down_name):print("开始下载素材...")r = requests.get(down_url, headers=self.headers, timeout=6)time.sleep(1)with open(down_name, 'wb') as f:f.write(r.content)print(">>>下载素材完成!")def main():page_queue = Queue(1000)down_queue = Queue(2500)for i in range(1, 71):url = f"http://www.uimaker.com/uimakerdown/list_36_{i}.html"print(f'>>> 正在爬取 第{i + 1}页 列表页,链接:{url} ...')page_queue.put(url)for x in range(3):t = Procuder(page_queue, down_queue)t.start()for x in range(6):t = Consumer(page_queue, down_queue)t.start()if __name__ == '__main__':main()

相关阅读:

单线程版本

Python素材下载爬虫,ui素材下载爬取采集源码

http://www.jmfq.cn/news/4747699.html

相关文章:

  • 成都市建设招标网站/关键词seo培训
  • 网站建设提供了哪些栏目/百度一下官网入口
  • 怎么做淘宝联盟的推广网站/最新新闻国内大事件
  • php网站支付宝接口/域名搜索引擎
  • 建设外贸型网站流程/厦门网站建设公司名单
  • 网站空间2G一年多少钱/手机打开国外网站app
  • 网站做任务佣金/今天的热点新闻
  • 网站开发设计文案/关键词搜索神器
  • 住房建设部投诉网站/免费的外链网站
  • 电子工程建设/搜索引擎优化关键词选择的方法有哪些
  • wordpress信用卡收款/手机优化
  • 独立建站什么意思/网络推广自学
  • 网站备案证书下载密码忘了/今日资讯最新消息
  • 网站建设引擎/百度资源搜索
  • 活动发布类网站开发/营销软文范例500
  • 济南做网站/品牌网络推广
  • 在centos上做网站/谷歌推广方案
  • 建设网站企业邮箱/百度企业网盘
  • wordpress开通多站点好处/电子商务网站设计方案
  • 地方新闻网站好坏/怎样免费给自己的公司做网站
  • 常宁做网站/nba篮网最新消息
  • php网站开发价格/网络广告案例以及分析
  • wordpress客服插件/杭州专业seo
  • 永春网站建设/软文推广哪个平台好
  • 安阳做网站电话/怎么样做一个自己的网站
  • 沈阳网络关键词排名/windows优化大师的优点
  • 制作网站需要学什么软件/seo外包 杭州
  • 做论坛网站看什么书/备案查询官网
  • 建设部招标网 官方网站/百度投诉中心24人工客服电话
  • 网站被百度蜘蛛爬死了/nba在线直播免费观看直播