文章列表
 
您正在查看 "Nutch" 分类下的文章

2009年03月09日 星期一 20:52

org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.hadoop.conf.Configuration。在Nutch早期开发版本中,Hadoop是Nutch项目的一部分,其中Hadoop主要包含两个部分:一个是HDFS(Hadoop分布式文件系统),当然Hadoop中也支持单机文件系统,另一个是Hadoop实现了Google的MapReduce算法,这是一个非常经典的算法。Nutch项目也是基于Hadoop的这两点来实现。

Hadoop文件系统,通过它

 
2009年03月09日 星期一 14:58

当然,从Nutch的架构来看,主要分成两个部分:抓取程序模块和搜索程序模块。其中抓取程序的测试,已经在前面的文章(Windows系统下Nutch-0.9安装配置及其测试抓取网页,在Linux下配置就更容易了,略过)中进行了测试,现在实现搜索程序的测试。

要知道,Nutch抓取程序启动后,对抓取到的网页进行了复杂的处理,包括使用Lucene为文件建立索引,生成了索引库,只需要在此基础上就可以进行信息检索。主要是通过在客户端

 
2008年10月05日 星期日 22:39

在对Nutch抓取工作流程分析中,已经简单地提及到了inject操作,如下所示:

inject操作调用的是nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是:crawldb数据库内容得到更新,包括URL及其状态。

inject操作主要作用可以从下面3方面来说明:

(1)

 
2008年10月04日 星期六 22:15

Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来了解Nutch是如何根据接收的命令行进行配置及其启动的。

org.apache.nutch.crawl.Crawl类的主函数如下所示:

 
2008年10月04日 星期六 21:05

Nutch的大致工作流程可以通过上一篇文章有了一定的了解了。在上一篇文章中,主要是针对一幅Nutch工作流程图片来了解Nutch的工作流程,十分感性,并没有涉及到任何关于Nutch的包和类。这里通过在网上下载的一个《Nutch入门学习》的PDF文档中介绍的内容,来详细组织一下,加深了解,为深入研究Nutch的源代码奠定良好的基础。

这里通过几个标题来叙述。

Nutch爬虫工作策略

Nutch爬虫的工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremen

 
2008年10月04日 星期六 16:58

在没有学习研究Nutch的源代码之前,我认为还是有必要对Nutch的工作流程有一个感性的认识和了解。通过对Nutch工作流程的学习认识,先有一个整体的印象,然后可以很好地指导我们去阅读学习它的源代码,从而更加深入理解Nutch。

当然,也不是唯一的,在阅读一个框架的源代码的时候,只要你选择了一个好的突破口,然后按照基于深度遍历的特性来学习理解,也能起到一定效果。但是,这种方式有点像是对着一个黑盒进行研究,对一个有机体没有一个整体的把握,也就是说没有整体概念,或者整体概念有点模糊。

 
2008年10月03日 星期五 19:22

这里要讲的只是对Nutch-0.9进行抓取网页功能进行配置,即感受一下Nutch的抓取程序的功能,至于测试如何在抓取程序工作完成之后,实现对抓取网页数据进行处理及其搜索程序的测试,在后面的文章中在详细学习研究了。

准备工作

1、Nutch-0.9的下载

Nutch-0.9可以到Apache去下载:http://apache.freelamp.com/lucene/nutch/

2、Cygwin的下载及其安装

文章

 
2008年10月02日 星期四 21:50

在接触到一个新的事物的时候,根据人的认知过程,我们势必要知道这个新事物的是什么,即What;然后,便是为什么要认知这个新的事物,如果没有任何理由的话说明完全没有必要去了解它,因为它可能对我们没有一点用处,这就是所谓的Why;接着就是How,该如何认知一个新的事物,使用什么样的方式和手段,只有在通过逐步的迭代执行What这个步骤和实施How,我们才能逐步了解、认识、理解这个新事物,使其为我所使用。

这里,我们主要对What和Why进行阐述。

Nutch简介

Nutch是一个使用Java编写的

 
 
   
 
 
文章存档
 
     
 
最新文章评论
  

这个不错,很详细,对于我们初学spring框架的人不错的帮助,感谢楼主分享
 

最近用,学习了~
 

[表情]
 

[表情]
 

对于Ubuntu用户,有一个简单的办法: 将该用户添加到admin用户组,即 usermod -G adm
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu