当前位置: 首页 > news >正文

呼叫中心网站建设/免费软文网站

呼叫中心网站建设,免费软文网站,微信做网站代购,长沙企业如何建网站heritrix目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布)http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html讲了 1.14.4 版本的安装和使用http://blog.sina.com.cn/s/blog_5f54f0be0101hcyd.html讲了如何扩展 1.14.4 版本其中的模块本文讲如何安装和使用 Heritrix 最新…

heritrix

目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布)

http://blog.sina.com.cn/s/blog_5f54f0be0101hcy8.html

讲了 1.14.4 版本的安装和使用

http://blog.sina.com.cn/s/blog_5f54f0be0101hcyd.html

讲了如何扩展 1.14.4 版本其中的模块

本文讲如何安装和使用 Heritrix 最新的 3.1.0 版

下载:

http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/

首先在 Eclipse 中新建 java 工程 MyHeritrix3。然后利用下载的源代码包根据以下步骤来配置这个工程。

1. 导入类库

Heritrix 所用到的工具类库都在 heritrix-3.1.0-dist.zip 的 \lib 目录下,需要将其导入 MyHeritrix3 工程。

1)将 heritrix-3.1.0-dist 下的 lib 文件夹拷贝到 MyHeritrix3 项目根目录;

2)在 MyHeritrix3 工程上右键单击选择“build Path -> configure Build Path …”,然后选择 Library 选项卡,单击“Add JARs …”。

3)在弹出的“JAR Selection”对话框中选择 MyHeritrix3 工程 lib 文件夹下所有的 jar 文件,然后点击 OK 按钮。

2. 拷贝源代码

将 heritrix-3.1.0\engine\src\main\java 添加到Eclipse的src目录,以及:heritrix-3.1.0\commons\src\main\java 目录 和 heritrix-3.1.0\modules\src\main\java 目录。

这样你就可以删除heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用,直接使用源代码运行。

3、运行Heritrix 3.1

在 MyHeritrix 工程上右键单击选择“Run As -> Run configurations”,选择 Java APPlication, 确保 Main 选项卡中的 Project 和 Main class 选项内容正确,其中的 Name 参数可以设置为任何方便识别的名字。

在 argument 项中设置启动参数-a admin:admin(输入启动账号),如下图:

ac918c4ac2fc5279919bc2e0af45c09f.gif

然后运行Heritrix.java,如果一切正常, eclipse 运行结果如图:

ac918c4ac2fc5279919bc2e0af45c09f.gif

可以看到程序已经在 8443 端口运行.

你可以通过:https://localhost:8443 访问Heritrix 3.1的管理端。要注意是 https , 不是 http

打开页面后会提示输入用户名和密码,输入 admin, admin

4、建立和配置抓取任务

登录管理控制台(用户名admin密码admin),在管理界面首页找到如下图这个位置:

ac918c4ac2fc5279919bc2e0af45c09f.gif

输入一个名称(如 test),然后点击“Create”按钮。

这时候根据默认模版生成了一个抓取任务,但还不能抓取任何东西,我们需要通过配置文件的修改告诉服务器,我们要抓取什么。

在管理控制台的Job Directories中选择要配置的job(下图中myjob)

ac918c4ac2fc5279919bc2e0af45c09f.gif

点击 myjob, 进入myjob的管理界面,如下图:

ac918c4ac2fc5279919bc2e0af45c09f.gif

点击 edit 按钮,开始编辑配置文件,配置需要修改的地方如下图所示,先从简单的做起:

ac918c4ac2fc5279919bc2e0af45c09f.gif

配置1和3的配置内容是一样的,operatorContactUrl写成 http://localhost, jobName和description随便写点东西即可。

配置2则是配置搜索种子网站的列表,我这里先写了一个http://www.sina.com.cn,先抓取新浪网站试试。

点击最上面的“Save changes"保存所有的配置文件。

这三个地方配置好就可以运行这个抓取任务试试了。

这时候需要执行如下操作(回到myjob的配置界面),让任务运行起来:

1)点击“build”编译当前的配置。

2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮;

3)这时任务处于挂起状态,点击“unpause”即立即启动任务。

如果系统正常运行,会有如下类似提示信息:

ac918c4ac2fc5279919bc2e0af45c09f.gif

在项目的jobs\test\20131226062239\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页。

如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下。

这种方式是较刻板的.因为它是直接将warcWriter bean 的 class 改了,但里面的属性还是之前类的。如果把属性的注释打开,会报错,因为 MirrorWriterProcessor 没有那些 property, 所以最好是自己再定义一个 bean. 然后在配置中引用它:

ac918c4ac2fc5279919bc2e0af45c09f.gif

定义上面三个 bean. 然后再在 dispositionProcessors 中将 processors 的引用改成 mirrorWriter:

ac918c4ac2fc5279919bc2e0af45c09f.gif

转载至:http://blog.sina.com.cn/s/blog_5f54f0be0101hcyt.html

相关阅读

链接:https://pan.baidu.com/s/1-QCBrj8iz_HWd2LV2PIi1g提取码:zewv

1、下载解压,得到edraw max 9.1中文原程序和注册机文件;2、首先

我们都知道在Mac上不能直接安装IE浏览器,如果要在Mac上使用IE浏览器,网上也有很多方法,比如安装虚拟机、通过安装 CrossOver或使用w

一:Yum 简介

Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器。基于RPM包管

使用浏览器打开地址: http://[Server-IP]/zabbix可能会出现白屏幕,查看/var/log/httpd/error_log文件,发现如下错误:Call t

1.我这里用的python3.7环境的,直接用pip就可以安装frida

2.查看内核

根据cpu版本去下载相应frida-server,然后去下载https://gith

http://www.jmfq.cn/news/5223313.html

相关文章:

  • 成全视频免费观看在线看 综合 笔记 视频/四川旅游seo整站优化
  • 网站建设疑问/建站教程
  • 女生做网站编辑/广州网站设计
  • 视频网站做视频节目赚钱吗/快速网站轻松排名
  • 网站内容如何编辑软件/网站自动收录
  • 网站 配色方案/找网站设计公司
  • cpa建站教程/推广哪个网站好
  • 长春网站建设/手机访问另一部手机访问文件
  • 商城网站制作公司/网络seo关键词优化技术
  • discuz可以做门户网站么/郑州网络推广哪个好
  • 网页制作与网站设计/优化大师win10
  • 搭建什么样的平台/百度一键优化
  • 武汉做网站hlbzx/seo教程
  • 网站布局策划/外链seo
  • 专业的网页设计和网站制作公司/免费浏览网站推广
  • 手机网站模板 优帮云/留手机号广告
  • 做网站美工需要会什么软件/seo培训机构
  • 江门网站建设方案/惠州seo网站排名
  • 利用css技术做网站的思路/线上推广app
  • 珠海城乡建设委员会的网站/外链代发免费
  • 可信网站认证办理要求/企业培训机构排名前十
  • wordpress 调用文章分类/西安seo托管
  • 定西网站建设/网络平台推广广告费用
  • 怎么夸一个网站开发公司/百度上怎么做推广
  • 镇江网站建设包括哪些/抖音优化
  • 外贸做中英文网站/电商网站建设开发
  • php怎么做视频网站/汕头网站建设技术外包
  • 初中生电脑作业做网站/今日新闻头条新闻今天
  • 青岛 网站设计/如何创建自己的小程序
  • 个人网站和企业网站的区别/互联网推广运营是干什么的