智慧团建初始密码123456/seo优化推广工程师招聘
1.查看淘宝网的robots.txt文档
https://www.taobao.com/robots.txt
User-Agent:*
Disallow:/
意思是除前面指定的爬虫外,不允许其他爬虫爬取任何数据。
2.soup=BeautifulSoup(html_document)
3.今天模仿博客写了爬取网页图片链接并下载链接资源的爬虫程序,
但遗憾的是,正则貌似有问题,爬取不到,或者是url地址的问题,所以,需要学习的是url链接内部的网页元素,及正则表达式正确获取所需资源。
import urllib.request #urllib模块提供了读取Web页面数据的接口 import re #re模块主要包含了正则表达式 import os from urllib.request import urlretrieve #定义一个getHtml()函数 def getHtml_text(url):response = urllib.request.urlopen(url) #urllib.request.urlopen()方法用于打开一个URL地址text = response.read().decode('UTF-8') #read()方法用于读取URL上的数据return textdef getImg(text):reg = r'src="(.+?\.jpg)" pic_ext' #正则表达式,得到图片地址imgre = re.compile(reg) #re.compile() 可以把正则表达式编译成正则模型.# imglist = imgre.findall(html_text)print(imgre.findall(text))# x = 0# for item in imgre.findall(text):# urllib.urlretrieve(item, 'E:\A\%s.jpg' % x)# print(item)# x = x + 1text = getHtml_text('https://tieba.baidu.com') print(text) getImg(text)#把筛选的图片地址通过for循环遍历并保存到本地#核心是urllib.request.urlretrieve()方法,直接将远程数据下载到本地,图片通过x依次递增命名
4.每个项目需要配置解释器-setting-->interpreter
5.为什么pycharm界面字体调不了