当前位置: 首页 > news >正文

那个网站做扑克牌便宜/排名优化工具下载

那个网站做扑克牌便宜,排名优化工具下载,危机舆情公关公司,建什么网站做cpa发现实战真的是最好的学习方法! 语言:python IDE:PyCharm 前期准备: 安装好python、chromedriver、浏览器XPath Helper插件 这次演示爬取json格式的和html格式分别的处理方法 首先先看json格式的 先打开豆瓣,搜索…

发现实战真的是最好的学习方法!

语言:python
IDE:PyCharm

前期准备:

安装好python、chromedriver、浏览器XPath Helper插件

这次演示爬取json格式的和html格式分别的处理方法

首先先看json格式的

先打开豆瓣,搜索“王祖贤”->选择图片->找到请求的url

我们访问这个url,发现返回的数据是json格式的

然后看html格式的

访问这个url:movie.douban.com,然后搜索 王祖贤,通过查看源码,了解结构,然后用XPath Helper插件做试验,按住ctrl+shift+x 同时鼠标点击王祖贤图片,根据XPath的语法,写表达式,如下:

介绍完毕后,直接上代码:

import requests
import json
# lxml是一个流行的解析库,使用的是Xpath语法,可以解析HTML
from lxml import etree
from selenium import webdriverquery = '王祖贤'
downloadPath = 'D:/workspace/study/python/text_classification/testdata/photos/'
# chromedriver需要配置环境变量,查看网上资料说建议放到python的Scripts目录下
chromedriverPath = 'D:/devsoft/python/Scripts/chromedriver'''' 下载图片 '''
def download(src, id):dir = downloadPath + str(id) + '.jpg'try:pic = requests.get(src, timeout=10)fp = open(dir, 'wb')fp.write(pic.content)fp.close()except requests.exceptions.ConnectionError:print('图片无法下载')# 数据是json格式
def getPhotos():''' for 循环 请求全部的 url '''for i in range(0, 200, 20):url = 'https://www.douban.com/j/search_photo?q=' + query + '&limit=20&start=' + str(i)html = requests.get(url).text  # 得到返回结果response = json.loads(html, encoding='utf-8')  # 将 JSON 格式转换成 Python 对象for image in response['images']:print(image['src'])  # 查看当前下载的图片网址download(image['src'], image['id'])  # 下载一张图片# 数据是 html格式,有时候网页会用 JS请求数据,只有等JS都加载结束后,才能获取完成的html,但xpath不受限制
def getMoviePhotos():url = 'https://movie.douban.com/subject_search?search_text=' + query + '&cat=1002'driver = webdriver.Chrome(chromedriverPath)driver.get(url)# 初始化html = etree.HTML(driver.page_source)# 使用xpath helper, ctrl+shit+x 选中元素# xpath 语法 http://www.w3school.com.cn/xpath/xpath_syntax.aspsrc_xpath = "//div[@class='item-root']/a[@class='cover-link']/img[@class='cover']/@src"title_xpath = "//div[@class='item-root']/div[@class='detail']/div[@class='title']/a[@class='title-text']"srcs = html.xpath(src_xpath)titles = html.xpath(title_xpath)# zip()函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,返回由元祖组成的对象。优点是节约内存# 参考 http://www.runoob.com/python3/python3-func-zip.htmlfor src, title in zip(srcs, titles):# join 字符串拼接print('\t'.join([str(src), str(title.text)]))download(src, title.text)driver.close()getPhotos()
getMoviePhotos()

然后执行后,在文件夹中就能看到下载的图片了

http://www.jmfq.cn/news/4729519.html

相关文章:

  • 局域网网站建设工具/下载百度语音导航地图
  • 长沙建站公司哪有/社群营销的具体方法
  • 郑州app软件定制/seo优化顾问服务阿亮
  • 建设工程行业招工信息网站/百度客服怎么转人工电话
  • 开发网站公司名称/怎么让网站快速收录
  • 吉安市网站制作/上海免费关键词排名优化
  • 临沂企业网站建设/深圳网络推广的公司
  • 阜南县城乡建设局官方网站/网站怎么优化到首页
  • 网站建设及营销方案/91关键词排名
  • 做私活 网站/注册公司网上申请入口
  • dw做网站注册页代码/百度贴吧网页入口
  • 公安机关网站规范化建设应用/百度推广和优化哪个好
  • 如何做后台网站增删改/东莞网站seo推广
  • 学院网站信息化建设总结/网络广告电话
  • 设计app的软件有哪些/关键词排名优化易下拉霸屏
  • 成都企业网站建设公司/电商网站排名
  • 上海做高端网站制/运营培训班
  • u8无可用数据源/成都做整站优化
  • 做网站怎么才会被百度收录/sem 推广软件
  • 上城区建设局网站/桔子seo网
  • 洛阳高端网站建设/上海外贸seo
  • 网站测试问题提交模板/台州专业关键词优化
  • 为什么要建设就业指导网站/关键词推广方法
  • 汕头网站公司/seo优化网站优化排名
  • 海淘手表网站/网页设计是干嘛的
  • 网站权限怎么弄/中国纪检监察报
  • 四川省住房和城乡建设厅官网站网/比较靠谱的网站
  • 用网站做的简历/seo自动优化工具
  • 北京联通网站备案/搜索引擎搜索器
  • 邀人做任务比较好的发布网站/淘宝关键词排名