当前位置: 首页 > news >正文

真么样建设网站/手机端竞价恶意点击

真么样建设网站,手机端竞价恶意点击,无锡电商网站,虎门网站建设费用文章目录 1. 实战概述2. 网站页面分析3. 编写代码爬取Q房二手房房源信息3.1 创建项目与程序3.2 运行程序,查看结果 4. 实战小结 1. 实战概述 本次实战项目旨在通过编写Python爬虫程序,抓取深圳Q房网上的二手房房源信息。我们将分析网页结构,…

文章目录

  • 1. 实战概述
  • 2. 网站页面分析
  • 3. 编写代码爬取Q房二手房房源信息
    • 3.1 创建项目与程序
    • 3.2 运行程序,查看结果
  • 4. 实战小结

1. 实战概述

  • 本次实战项目旨在通过编写Python爬虫程序,抓取深圳Q房网上的二手房房源信息。我们将分析网页结构,确定房源信息的XPath路径,并实现数据的提取与CSV文件存储。通过本项目,学习如何运用requests库发送HTTP请求,使用lxml.etree解析HTML,以及如何高效地处理和存储爬取的数据。

2. 网站页面分析

  • 第1页房源 - https://shenzhen.qfang.com/sale/f1
    在这里插入图片描述
  • 第2页房源 - https://shenzhen.qfang.com/sale/f2
    在这里插入图片描述
  • 发现URL构造规律:https://shenzhen.qfang.com/sale/f + 页码
  • 查看房源列表源码
    在这里插入图片描述
  • 针对第一个li,拷贝其XPath//*[@id="cycleListings"]/ul/li[1],去掉[1],根据//*[@id="cycleListings"]/ul/li获取房源列表
  • 针对每一个房源,要爬取的信息用红框标注
    在这里插入图片描述

3. 编写代码爬取Q房二手房房源信息

3.1 创建项目与程序

  • 创建Q房网爬虫实例项目,在里面创建QHouseCrawler.py程序
    在这里插入图片描述
from lxml import etree  # 导入lxml解析库
import requests  # 导入HTTP请求库,用于发送网络请求
import csv  # 导入CSV库,用于读写CSV文件
import time  # 导入时间库,用于在请求间添加延迟# 定义爬虫主函数
def spider():# 定义爬虫头部信息,模拟浏览器访问headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'}url_prefix = "https://shenzhen.qfang.com/sale/f"  # 定义基础URL前缀for page in range(1, 11):  # 遍历所有页面,从第1页到第10页url = url_prefix + str(page)  # 构建完整URLhtml = requests.get(url, headers=headers)  # 发送HTTP GET请求time.sleep(2)  # 等待2秒,避免请求过于频繁selector = etree.HTML(html.text)  # 解析HTML内容house_list = selector.xpath('//*[@id="cycleListings"]/ul/li')  # 使用XPath定位所有房屋信息for house in house_list:  # 遍历每个房屋信息apartment = house.xpath('div[2]/div[1]/a/text()')[0]  # 提取公寓名称house_layout = house.xpath('div[2]/div[2]/p[1]/text()')[0]  # 提取房屋布局area = house.xpath('div[2]/div[2]/p[2]/text()')[0]  # 提取面积region = house.xpath('div[2]/div[4]/text()')[0]  # 提取地区item = [apartment, house_layout, area, region]  # 构建数据项列表cleaned_item = [i.replace('\r', '').replace('\n', '').replace(' ', '') for i in item]  # 清理数据中的换行符和多余空格data_writer(cleaned_item)  # 写入CSV文件print('正在抓取……', cleaned_item)  # 打印当前抓取的数据项# 将数据写入CSV文件的函数
def data_writer(item):with open('Q房-二手房.csv', 'a',  # 打开CSV文件,'a'模式表示追加写入encoding='utf-8', newline='') as csvfile:  # 设置文件编码为utf-8,避免中文乱码writer = csv.writer(csvfile)  # 创建CSV写入器writer.writerow(item)  # 写入一行数据if __name__ == '__main__':  # 如果直接运行此脚本spider()  # 调用爬虫函数

3.2 运行程序,查看结果

  • 查看控制台输出
    在这里插入图片描述
  • 查看生成的结果文件
    在这里插入图片描述
    在这里插入图片描述

4. 实战小结

  • 在本次实战中,我们成功地分析了深圳Q房网二手房页面的结构,掌握了房源信息的XPath定位方法。通过编写Python爬虫脚本,我们实现了从网页动态加载的房源列表中提取关键信息,并将数据存储至CSV文件。在实践过程中,我们遇到了XPath表达式的优化和数据清洗的问题,但通过不断调试和改进,最终达到了预期效果。此项目不仅提升了我们的爬虫编写技能,也加深了对网页结构和数据提取流程的理解,为今后处理更复杂的数据抓取任务打下了坚实基础。
http://www.jmfq.cn/news/5357647.html

相关文章:

  • 龙岗品牌网站建设/互联网营销的特点
  • 网站建设静态部分实训总结/优化师
  • 网站建设公司源码/免费推广的网站平台
  • 网站建设技术参数/自创网站
  • 苏州网站建设永阳网络/惠州关键词排名优化
  • 网站建设及网络营销/seo优化师就业前景
  • 优秀网站建设价格/站长工具怎么用
  • 企业网站建设定制开发/seo搜索引擎是什么意思
  • 品牌网站建设定制/百度在线入口
  • 黄埔b2b网站建设公司/企业网络营销方案策划
  • 网站建设报价东莞/今日最新新闻重大事件
  • 中华人民共和国城乡建设委员会网站/seo如何优化关键词上首页
  • 电子产品网站建设策划书/好的seo平台
  • 兰州广告公司网站建设/2345网址导航怎么样
  • php网站建设系统/宁波seo网络推广咨询热线
  • 网站建设科技有限公司/怎么制作一个简单的网页
  • 临潼区建设局网站/优化工作流程
  • 建设部网站/seo主要优化
  • 最便宜买机票网站建设/广告投放平台有哪些
  • 小说网页网站建设/深圳网站建设专业乐云seo
  • 服务器网站建设流程图/教程seo推广排名网站
  • 武汉网站建设www.com/所有关键词
  • 网站建设分录/为企业策划一次网络营销活动
  • 网站翻译建设/南昌百度网站快速排名
  • 一家网站建设公司需要什么资质/自己建网站怎么弄
  • vs2012建设空网站/国内最新新闻摘抄
  • 苏宁易购网站建设建议/百度关键词搜索次数
  • 网站建设类行业资讯/广西seo公司
  • 聊城网站建设包括哪些/宁波seo搜索优化费用
  • 机械设备 东莞网站建设/网店营销策划方案