当前位置: 首页 > news >正文

网站建设的必要性分析/郴州网站推广

网站建设的必要性分析,郴州网站推广,重庆网站建设.com,快站app制作Python爬取网页信息 需求: 持续爬取某嵌入式设备配置网页上的状态信息 shell脚本 简单快速, 不用装插件只能爬取静态内容 用curl命令返回整个网页的内容用grep命令抓取其中某些字段结合正则表达式可多样查找但对于动态内容, 比如对某嵌入式设备配置网页上的一条不断更新的信…

Python爬取网页信息

  • 需求: 持续爬取某嵌入式设备配置网页上的状态信息

shell脚本

  • 简单快速, 不用装插件
  • 只能爬取静态内容
  1. curl命令返回整个网页的内容
  2. grep命令抓取其中某些字段
  3. 结合正则表达式可多样查找
  4. 但对于动态内容, 比如对某嵌入式设备配置网页上的一条不断更新的信息, 可能只能爬出来占位符XXXX, 不满足我的需要
#!/bin/bash
while true
do# 获取时间戳timestamp=$(date +"%Y-%m-%d %T")# 先获取网页内容, 再获取内容中带Temperature的一行temperature_line=$(curl -s "http://lidar-internal-config.com" | grep "Temperature")# 打印出来echo "$timestamp $temperature_line" >> log.txt  sleep 1
done
# wget和curl差不多效果
# wget -q -O - 192.168.4.5 | grep -o "gps lock\|gps unlock" | awk '{print strftime("%Y-%m-%d %H:%M:%S"), $0}'

python脚本

  • 要安装一些东西, 有点麻烦

  • 可以爬取动态内容, 模仿网页

  • Ubuntu安装selenium

    • pip安装的可能是py2环境下的, 这时要用pip3安装
  • 再安上边链接的步骤安装geckodriver

    • Ubuntu自带火狐, 所以用geckodriver, 会先打开一个网页, 然后在这个网页上刷新.
    • 如果用get打开网页就读取内容, 可能动态内容还没刷出来, 有时还会抓到占位符, 加个延时就行
    • phantomjs不会打开网页, 但对于变化内容还是只能爬出占位符XXXX, 官方好像也放弃这库, 推荐用firefox或chrome
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import datetime
browser = webdriver.Firefox()
# browser = webdriver.PhantomJS() # 不好用
# 传入地址, 返回要抓取的内容
def Get_Status(address):browser.get(address)time.sleep(0.2) # 延时等待正常刷新# 定位到带GNSS静态字符的位置, 方便抓旁边的动态字符elements = browser.find_elements_by_xpath("//*[text()='GNSS']")sibling_element = elements[0].find_element_by_xpath(".").# 抓取动态内容find_element_by_xpath("./following-sibling::*").text# print(sibling_element)return sibling_elementcurrent_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
file_name = "./log/gps_monitor"+current_time+".txt" # 先定好文件名while True:current_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") # 每条记录打上时间戳Status = Get_Status("你要访问的ip地址")# 写入log文件内with open(file_name,'a') as f:f.write("{}: GGG: {} \n".format(current_time, Status))time.sleep(10)
browser.close()
http://www.jmfq.cn/news/5313619.html

相关文章:

  • 泗洪县建设局网站怎么查不到/站内seo和站外seo区别
  • 辽阳网站建设公司/软文之家
  • 宁波网站建设 首选智尚网络/新闻热点大事件
  • 杭州网站建设设计公司/千锋教育学费一览表
  • 黑龙江建设人员证件查询网站/淘宝美工培训
  • 网站建设雨点/互联网行业最新资讯
  • 网站建设与维护流程图/百度排名优化咨询电话
  • 无锡新吴区建设环保局网站/seo优化招聘
  • 网站建设专业网站设计公司物格网/扬州网站seo
  • 公司网站建设带来的好处/google浏览器官方下载
  • 中国建设银行官网站企业年金/希爱力副作用太强了
  • 榆林市横山县建设局官方网站/想要网站导航推广页
  • 网站建设与维护实训总结/有哪些网络推广平台
  • 网站建设需要的设备和软件/建网站公司
  • 建设银行U盾不自己弹网站了/网络运营
  • 登尼特网站建设服务/聊城网站推广的公司
  • 南宁城乡建设委员会的网站/软考培训机构哪家好一点
  • 房屋中介的网站怎么建设/百度竞价关键词出价技巧
  • 网站建设 广州/彩虹云商城网站搭建
  • 长春建设银行社会招聘网站/优化营商环境发言材料
  • 唐山建设集团招聘信息网站/江苏网页设计
  • 养殖舍建设网站/体球网足球世界杯
  • 简阳电力建设立项网站/营销渠道的三个类型
  • 佛山网站建设锐艺a068/建网站找哪个公司
  • 微信小程序格泰网站建设/做网销的一天都在干嘛
  • 天润网站建设/win10优化工具
  • 公司网站建设需要哪些/怎么开发自己的小程序
  • 500网站建设/最新军事新闻今日最新消息
  • 松江泖港网站建设/今日新闻
  • 网站建设 数据上传 查询/谷歌搜索引擎为什么打不开