文章列表
 
您正在查看 "Heritrix" 分类下的文章

2008年04月25日 星期五 16:39

今天使用Heritrix(Version:1.12.1)做了一个测试,原来并不是任何网站都可以被网络爬虫抓取到,其实本来就应该是这样,如果一些恶意爬虫没有规则地对网站进行抓取,势必增加网站的负荷。

而且,对于一个网站来说,可以通过一定的措施来设置网站接受爬虫的范围。一些应该受到保护的资源是不应该被网络爬虫抓取到的,管理员可以在网站中进行设置,运行哪些爬虫,限制哪些爬虫。

本来想拿我的百度空间(http://hi.baidu.com/shirdrn)作为种子页面,但是结果是令人失望的,

 
2008年04月04日 星期五 19:03

在文章 Heritrix-1.12.1在Eclipse中的配置 中,已经完成了对Heritrix-1.12.1在Eclipse中的配置。这时,可以登录WebUI,建立抓取任务了。

首先启动Heritrix后台监听程序,然后登录WebUI(可以在文章 Heritrix-1.12.1在Eclipse中的配置 中参考启动过程、及其登录WebUI)。

成功登录WebUI后,初始界面如图所

 
2008年04月04日 星期五 14:01

关于网络爬虫Heritrix,在配置上真是一件不容易的事情,之所以这样会说,是因为Heritrix开发之初就是基于在Unix平台的(可以参考官方Manual,网址为http://crawler.archive.org/articles/user_manual/index.html),可以保证非常容易地在Unix平台下轻松地启动。因此,在Windows平台下,配置起来让人感觉有点非常规。

在网络上有很多关于配置它的求助帖子,我感觉看了那些帖子后,感觉更加迷茫了。

个人认为,关键是理解它的内在机制,这

 
 
   
 
 
文章存档
 
     
 
最新文章评论
  

这个不错,很详细,对于我们初学spring框架的人不错的帮助,感谢楼主分享
 

最近用,学习了~
 

[表情]
 

[表情]
 

对于Ubuntu用户,有一个简单的办法: 将该用户添加到admin用户组,即 usermod -G adm
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu