当前位置: 首页 > news >正文

一站式服务的好处/专业营销策划团队

一站式服务的好处,专业营销策划团队,云南网站开发公司介绍,网页设计一个多少工资人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位私信小编进群 一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我…

7d49f9bc9f79ff118d8aebacacde3a9d.gif

人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位私信小编进群 一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握Python核心技术,才是掌握真正的价值所在。

47a6d17ac978f9c652fc05c534a8a990.png

前言

HTML文档是互联网上的主要文档类型,但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息,也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法,以备查阅。

抓取TXT文档

在python3下,常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。

36aef95c229de2e9eafd81ac24108e1f.png

如果抓取的是某个HTML,最好先分析,例如:

c451f68edc011b33bbb93874583a2052.png

抓取CSV文档

e5fa99474b972d8d5bd019df500851c2.png

抓取PDF文档

32e5d1bcb513b00dcdd532890efa6dca.png

抓取word

方法:

(1)利用urlopen抓取远程word docx文件;

(2)将其转换为内存字节流;

(3)解压缩(docx是压缩后文件);

(4)将解压后文件作为xml读取

(5)寻找xml中的标签(正文内容)并处理

4bf83e3acbab50f234f64f385bcae6fb.png

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜。

ba76a604ca5b3f1681d0b62b28587f5c.gif

觉得不错,点个“在看”然后转发出去a13f79264a8956f2fea886f8e137246b.gif

http://www.jmfq.cn/news/4982455.html

相关文章:

  • 网站怎么做图片链接/seo优化工具软件
  • 挂网站需要什么服务器/百度网址大全电脑版旧版本
  • 大气的房产网站/北京百度推广代运营
  • 用c 做动态网站/湖南网站托管
  • 网页模版网站/郑州seo排名第一
  • 个人做淘宝客网站要备案/免费网站制作教程
  • 深圳外贸网站建设公司价格/网站开发制作培训学校
  • 杭州网站建设推广公司/知名网络推广
  • 医院网站详细设计/移动建站优化
  • 免费企业网站建立/湖北网站seo策划
  • 沈阳做网站的公司推荐/做网络推广一个月的收入
  • 网站站点建设的端口/百度答主中心入口
  • 网站建设 昆明 价格/ip域名查询
  • 绵阳专门做网站的公司/巨量数据分析入口
  • 东莞网站制作多少钱/廊坊seo排名公司
  • 斐讯k3做网站/提高网站排名的软件
  • 如何在阿里巴巴上做网站/怎样建网站
  • 微商产品做网站/广州最新疫情通报
  • 找网站做任务qq红包/如何做好网络推广
  • 兼职网站建设策划书/网络营销该如何发展
  • 网站开发价位评估/网络营销网课
  • 企业网站开发毕业报告/seo流量排行榜神器
  • 学做日本料理网站/哪些网站推广不收费
  • 做网站的有哪些公司/世界杯排名
  • 能在线做国二计算机题目的网站/全网最低价24小时自助下单平台
  • 头像制作logo免费生成器在线/泉州seo代理计费
  • 品牌网站策划方案/怎么设置自己的网站
  • 个人做动漫资源网站/做seo用哪种建站程序最好
  • 成华区微信网站建设/网络营销专业介绍
  • thinkphp做的网站怎么预览/东莞网络优化哪家好