当前位置: 首页 > news >正文

九江集团网站建设/商业网站设计

九江集团网站建设,商业网站设计,wordpress移动端插件,什么网站做风险投资摘要:为了方便人们的阅读习惯,网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条,相关链接和商业广告等信息.无关信息的存在,对网页的检索,存储以及分类都会带来负面的影响.如何将正文从充满了无关信息的网页中提取出来,成为对网…

摘要:

为了方便人们的阅读习惯,网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条,相关链接和商业广告等信息.无关信息的存在,对网页的检索,存储以及分类都会带来负面的影响.如何将正文从充满了无关信息的网页中提取出来,成为对网页进行充分利用的关键. 网页正文提取成为当前研究的热点,并且,已有许多国内外学者提出了不同的提取方法,但这些方法也存在着一些不足:基于统计的方法由于重点关注网页的统计信息,很少利用网页的结构特征,提取的准确率往往不高;基于DOM的方法复杂度较高,对网页的规范化要求比较严格,对书写不规范的网页的解析将不会彻底,有时候甚至在解析的过程中发生崩溃;基于视觉特征的提取方法尽管能满足复杂页面的要求,然而,由于视觉特征复杂多样,因此,实现起来较为复杂. 针对上述问题,本文通过对大量网页进行研究,从网页的结构特征和内容特征出发,试图找出一种通用的,能够快速准确的对网页正文部分内容进行提取的方法,主要内容包括: ①通过网页的URL地址从互联网上下载网页,将网页源码以字符串的形式保存,利用正则表达式完成对网页中与正文无关的元素的过滤.分析网页的结构特征,利用HTML中的容器标签对网页进行线性分块,避免了网页标签之间的嵌套关系. ②利用分块之后各块中文本以及标点符号分布的内容特征,将其分别划分为文本块与链接块.其中,文本块主要存在与网页正文部分,而链接块通常位于网页的"噪音"部分. ③网页中"噪音"内容通常是连续出现的,根据这个特点,首先找出文本块中文本长度最大的块.在此块的基础上,对块序列向前和向后查找连续出现的链接块作为正文部分的边界,提取其中的内容作为网页的正文内容. 最后,为了验证文中提出方法的有效性,本文设计并实现了一个网页正文提取的原型系统.通过一系列实验进行对比说明,本文所提出方法能够快速,准确的提取网页中的正文部分内容.

展开

http://www.jmfq.cn/news/4929175.html

相关文章:

  • 建设部网站注册中心/网站推广seo招聘
  • 网站做app的好处/济南网站优化排名
  • 可以做免费推广的网站吗/西安百度快照优化
  • 贵阳中企动力做的网站/网站设计公司建设网站
  • 果洛电子商务网站建设哪家快/做互联网项目怎么推广
  • 主流网站建设技术/苏州百度推广公司
  • 360免费网站建设/什么是seo搜索
  • 常州市天宁区建设局网站/搜索引擎排名原理
  • 广州网站优化流程/中国的搜索引擎有哪些
  • 新动力网站建设/公司网页怎么做
  • 陕西省住房与建设厅网站/深圳网络营销网站设计
  • 丰台区网站建设/一级造价工程师
  • 佛山便宜网站建设/外贸建站教程
  • 易企秀做的网站/上海百度推广客服电话多少
  • 做网站租用数据库/seo优化软件
  • 互联网一二线大厂名单/进一步优化营商环境
  • 做公司网站可以抄别人的吗/交换链接营销案例
  • 政府网站建设企业/在线刷高质量外链
  • 比较好的摄影网站/百度seo关键词优化
  • 如何做一间公司的网站/百度一下免费下载安装
  • 捷信做单官方网站/全球网络营销公司排行榜
  • h5建站工具/网络营销专业就业公司
  • 开发一个网站一般需要多少钱/站长工具是什么
  • 免费网站一级域名注册/百度开放平台登录
  • 建材做哪些网站/引流推广怎么做
  • 福州网站建设企业哪家好?/百度广告位价格表
  • 做网站首页ps分辨率多少/网站seo谷歌
  • 中国建设机械委员会网站/搜索引擎营销优缺点
  • 做淘宝客网站哪个好/百度广告联盟网站
  • 幼儿园网站怎样建设/seo优化关键词分类