当前位置: 首页 > news >正文

哪里可以鉴定钻石/青岛谷歌优化

哪里可以鉴定钻石,青岛谷歌优化,关于做网站的合同,外贸生意怎么入手由于需要从某个网页上下载一些PDF文件,但是需要下载的PDF文件有几百个,所以不可能用人工点击来下载。正好Python有相关的模块,所以写了个程序来进行PDF文件的下载,顺便熟悉了Python的urllib模块和ulrllib2模块。 1、问题描述 需要…

由于需要从某个网页上下载一些PDF文件,但是需要下载的PDF文件有几百个,所以不可能用人工点击来下载。正好Python有相关的模块,所以写了个程序来进行PDF文件的下载,顺便熟悉了Python的urllib模块和ulrllib2模块。

1、问题描述

需要从http://www.cvpapers.com/cvpr2014.html上下载几百个论文的PDF文件,该网页如下图所示:

20161119144626044.jpg

2、问题解决

通过结合Python的urllib模块和urllib2模块来实现自动下载。代码如下:

test.py

#!/usr/bin/python

# -*- coding:utf-8 -*-

import urllib #导入urllib模块

import urllib2 #导入urllib2模块

import re #导入正则表达式模块:re模块

def getPDFFromNet(inputURL):

req = urllib2.Request(inputURL)

f = urllib2.urlopen(req) #打开网页

localDir = 'E:downloadPDF' #下载PDF文件需要存储在本地的文件夹

urlList = [] #用来存储提取的PDF下载的url的列表

for eachLine in f: #遍历网页的每一行

line = eachLine.strip() #去除行首位的空格,习惯性写法

if re.match('.*PDF.*', line): #去匹配含有“PDF”字符串的行,只有这些行才有PDF下载地址

wordList = line.split('"') #以"为分界,将该行分开,这样就将url地址单独分开了

for word in wordList: #遍历每个字符串

if re.match('.*.pdf$', word): #去匹配含有“.pdf”的字符串,只有url中才有

urlList.append(word) #将提取的url存入列表

for everyURL in urlList: #遍历列表的每一项,即每一个PDF的url

wordItems = everyURL.split('/') #将url以/为界进行划分,为了提取该PDF文件名

for item in wordItems: #遍历每个字符串

if re.match('.*.pdf$', item): #查找PDF的文件名

PDFName = item #查找到PDF文件名

localPDF = localDir + PDFName #将本地存储目录和需要提取的PDF文件名进行连接

try:

urllib.urlretrieve(everyURL, localPDF) #按照url进行下载,并以其文件名存储到本地目录

except Exception,e:

continue

getPDFFromNet('http://www.cvpapers.com/cvpr2014.html')

注意:

(1)第1、6、8、23行分别多谢了一个“”来进行转义;

(2)第27行的urlretrieve函数有3个参数:第一个参数就是目标url;第二个参数是保存的文件绝对路径(含文件名),该函数的返回值是一个tuple(filename,header),其中的filename就是第二个参数filename。如果urlretrieve仅提供1个参数,返回值的filename就是产生的临时文件名,函数执行完毕后该临时文件会被删除参数。第3个参数是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。其中回调函数名称可任意,但是参数必须为三个。一般直接使用reporthook(block_read,block_size,total_size)定义回调函数,block_size是每次读取的数据块的大小,block_read是每次读取的数据块个数,taotal_size是一一共读取的数据量,单位是byte。可以使用reporthook函数来显示读取进度。

http://www.jmfq.cn/news/4975795.html

相关文章:

  • 网站销售公司简介/2022拉人头最暴利的app
  • 宝鸡市建设工程交易中心网站/百度云网页版登录入口
  • dede网站单页面怎么做/短期培训班学什么好
  • 自己的网站是什么样子的/网站建设工作总结
  • 做网站有哪些语言/网络营销图片
  • 番禺网站制作/婚恋网站排名前三
  • 做外贸怎么登陆外国网站/上海城市分站seo
  • 在线免费看影视网站/怎么开发自己的网站
  • 徐州建设网站公司/百度指数免费查询入口
  • 做网站用的编程工具/baidu百度
  • 建域名做网站/成都网站改版优化
  • b2c网站开发核心技术/网站seo优化价格
  • 企业英文网站制作/网络营销评价的名词解释
  • 苏州画廊网站建设/seo主要优化哪些
  • 武汉网络建设公司/上海seo培训
  • 营销网站搭建建议/网推软件有哪些
  • 长沙旅游必去十大景点/怎样优化网站关键词排名靠前
  • 线上设计师都在哪挣钱/seo关键词优化价格
  • 青岛做网站建设价格低/爱链工具
  • dnf怎么做提卡网站/大数据智能营销
  • 如何备份网站/最近三天的新闻大事摘抄
  • 郑州网站建设公司/十八未成年禁用免费app
  • 做网站宣传有用吗/爱站网 关键词挖掘工具站
  • 做针对国外的网站/山东做网站
  • 慈溪网站建设哪家好/怎么免费制作网页
  • app界面设计模板一套/苏州网站建设优化
  • 网站做三方登陆需要注册公司不/苏州搜索引擎排名优化商家
  • 网站建设先进材料/网络营销手段有哪些
  • 做类似美团的网站得多少钱/平台推广渠道
  • 1m带宽做网站速度怎么样/seo解释