当前位置: 首页 > news >正文

上海专业的网站公/火蝠电商代运营公司

上海专业的网站公,火蝠电商代运营公司,网站空间服务器费用,六安做网站多少钱crawler4j是用Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。下面实例结合jsoup,采集搜狐新闻网(http://news.sohu.com/)新闻标题信息。 所有的过程仅需两步完成: 第一步&…

crawler4j是用Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。下面实例结合jsoup,采集搜狐新闻网(http://news.sohu.com/)新闻标题信息。

所有的过程仅需两步完成:

第一步:建立采集程序核心部分

29 
30 /**
31  * @date 2016年8月20日 上午11:52:13
32  * @version
33  * @since JDK 1.8
34  */
35 public class MyCrawler extends WebCrawler {
36 
37     //链接地址过滤//
38     private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|gif|jpg" + "|png|mp3|mp3|zip|gz))$");
39 
40     @Override
41     public boolean shouldVisit(Page referringPage, WebURL url) {
42         String href = url.getURL().toLowerCase();
43         return !FILTERS.matcher(href).matches() && href.startsWith("http://news.sohu.com/");
44     }
45 
46     /**
47      * This function is called when a page is fetched and ready to be processed
48      * by your program.
49      */
50     @Override
51     public void visit(Page page) {
52         String url = page.getWebURL().getURL();
53         logger.info("URL: " + url);
54 
55         if (page.getParseData() instanceof HtmlParseData) {
56             HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
57             String text = htmlParseData.getText();
58             String html = htmlParseData.getHtml();
59             Set<WebURL> links = htmlParseData.getOutgoingUrls();
60 
61             logger.debug("Text length: " + text.length());
62             logger.debug("Html length: " + html.length());
63             logger.debug("Number of outgoing links: " + links.size());
64             logger.info("Title: " + htmlParseData.getTitle());
65             
66         }
67     }
68 
69 }

第二步:建立采集程序控制部分

28 /**
29  * @date 2016年8月20日 上午11:55:56
30  * @version
31  * @since JDK 1.8
32  */
33 public class MyController {
34 
35     /**
36      * @param args
37      * @since JDK 1.8
38      */
39     public static void main(String[] args) {
40         // TODO Auto-generated method stub
41 
42         //本地嵌入式数据库,采用berkeley DB
43         String crawlStorageFolder = "data/crawl/root";
44         int numberOfCrawlers = 3;
45 
46         CrawlConfig config = new CrawlConfig();
47         config.setCrawlStorageFolder(crawlStorageFolder);
48 
49         /*
50          * Instantiate the controller for this crawl.
51          */
52         PageFetcher pageFetcher = new PageFetcher(config);
53         RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
54         RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
55         CrawlController controller;
56         try {
57             controller = new CrawlController(config, pageFetcher, robotstxtServer);
58             controller.addSeed("http://news.sohu.com/");
74             controller.start(MyCrawler.class, numberOfCrawlers);
75         } catch (Exception e) {
76             // TODO Auto-generated catch block
77             e.printStackTrace();
78         }
79 
80     }
81 
82 }

采集结果展示:

 

转载于:https://www.cnblogs.com/liinux/p/5790207.html

http://www.jmfq.cn/news/4883257.html

相关文章:

  • 厦门集团网站建设/直播:韩国vs加纳直播
  • wordpress音乐播放界面/百度seo关键词排名技术
  • 创建网站并制作首页教案/上海百度公司地址在哪里
  • Django可以做门户网站吗/app开发
  • 舆情分析案例/百度seo优化
  • 免费网站建设视频教程/360seo排名优化服务
  • 银川网站建设价格/网络营销策划包括哪些内容
  • 电子商务网站建设组织流程图/产品网络推广深圳
  • 网站建设应重视后期的服务和维护/seo短视频网页入口引流网站
  • 网站上怎么做动画广告视频/关键词优化公司
  • 越南做企业网站/什么软件可以免费发广告
  • 中国电信网站备案管理系统/百度霸屏培训
  • 南通城乡建设局网站/seo优化是啥
  • 张家界seo优化/如何对seo进行优化
  • 怎么做网站作业/谷歌推广怎么样
  • 东莞公司网站建设/推广文案范例
  • 网站怎么做域名/全搜网
  • 做网站的视频教学/下拉词排名
  • 哈尔滨网站开发建设公司/网站开发平台有哪些
  • 一个好的网站应该具有什么/如何建网站赚钱
  • 嘉兴网站建设企业/南宁seo优化公司排名
  • 做网站的职业/搜索引擎下载入口
  • 微信 网站 优劣势/百度信息流投放
  • 宝安大型商城网站建设/深圳seo优化seo优化
  • 深圳市浩天建设网站/线上推广是做什么的
  • 做带后台的网站/建站之星官方网站
  • 科技开发公司/宁波seo整体优化
  • 网站制作工作室/东莞网站优化公司哪家好
  • 网站推广的定义及方法/seo优化内页排名
  • 西昌手机网站制作/网络推广是网络营销的基础