当前位置：首页 > news >正文

智慧团建初始密码123456/seo优化推广工程师招聘

news 2025/6/30 10:17:04

智慧团建初始密码123456,seo优化推广工程师招聘,网站设计与制作用什么软件,div css 网站后台1.查看淘宝网的robots.txt文档 https://www.taobao.com/robots.txt User-Agent:* Disallow:/ 意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。 2.soupBeautifulSoup(html_document) 3.今天模仿博客写了爬取网页图片链接并下载链接资源的爬虫程序…

1.查看淘宝网的robots.txt文档

https://www.taobao.com/robots.txt

User-Agent:*
Disallow:/

意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。

2.soup=BeautifulSoup(html_document)

3.今天模仿博客写了爬取网页图片链接并下载链接资源的爬虫程序，

但遗憾的是，正则貌似有问题，爬取不到，或者是url地址的问题，所以，需要学习的是url链接内部的网页元素，及正则表达式正确获取所需资源。

import urllib.request  #urllib模块提供了读取Web页面数据的接口
import re  #re模块主要包含了正则表达式
import os
from urllib.request import urlretrieve
#定义一个getHtml()函数
def getHtml_text(url):response = urllib.request.urlopen(url)  #urllib.request.urlopen()方法用于打开一个URL地址text = response.read().decode('UTF-8') #read()方法用于读取URL上的数据return textdef getImg(text):reg = r'src="(.+?\.jpg)" pic_ext'  #正则表达式，得到图片地址imgre = re.compile(reg)     #re.compile() 可以把正则表达式编译成正则模型.# imglist = imgre.findall(html_text)print(imgre.findall(text))# x = 0# for item in imgre.findall(text):#     urllib.urlretrieve(item, 'E:\A\%s.jpg' % x)#     print(item)#     x = x + 1text = getHtml_text('https://tieba.baidu.com')
print(text)
getImg(text)#把筛选的图片地址通过for循环遍历并保存到本地#核心是urllib.request.urlretrieve()方法,直接将远程数据下载到本地，图片通过x依次递增命名

4.每个项目需要配置解释器-setting-->interpreter

5.为什么pycharm界面字体调不了

查看全文

http://www.jmfq.cn/news/4934161.html