文章列表
 
您正在查看 "Nutch" 分类下的文章

2009-04-19 21:47

转自:http://blog.chinaunix.net/u2/76697/article_100395.html

网络蜘蛛搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中的死链接(即链接所

 
2009-04-19 10:57

转自:http://www.cnblogs.com/kwklover/articles/445925.html

下面我们来研究一下fetch操作,在爬虫中,抓取是最主要的操作。
Fetch命令:net.nutch.fetcher.Fetcher
此命令的作用就是抓取网页,但是需要注意的是,抓取的单位不是单个的网页,而是同属于一个segment的网页集合。命令格式:
Fetcher [-logLevel level] [-showThreadID] [-threads n] dir
在进行fetch之前,我们已经生成了webdb,在其中初始化写入了URL,并且生成

 
2009-04-19 10:24
 
2009-04-19 10:22
 
2009-04-19 10:05

转自:http://blog.csdn.net/zjzcl/archive/2006/02/06/593138.aspx

“工欲善其事,必先利其器。”经过前文的“细解”,我们已经完成了Nutch在Windows中的安装。接下来就让我们通过锋芒初试,来亲自体验一下Nutch的强大功能吧!
   

 
2009-04-19 10:02

转自:http://dev2dev.cnblogs.com/archive/2006/02/01/324638.html

近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前,当然是需要先对其进行安装了。用搜索引擎查找了一下相关内容,发现大

 
 
   
 
 
文章分类
 
   
 
文章存档
 
     
 
最新文章评论
  

回复prometheus2008:哦
 

回复天使街没有人:你好,我学的计算机。
 

亲 冒昧的问一下你是学什么的?
 

yield()和join()的区别 join方法是,用对象名称调用,在一个线程t2中调用另一个线程t
 

非常好!
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu