文章列表
 
您正在查看 "Nutch" 分类下的文章

2008-03-24 23:40

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码,另外很多地方作了合理化修正,非常值得升级。

    作者:江南白衣

    

 
2008-03-24 23:22
Lucene倒排索引原理

  Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:

  0)设有两篇文章1和2

  文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.

  文章2的内容为:He once lived in Shanghai.

  1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施

  a.我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于

 
2008-03-24 23:20

在eclipse中调试nutch很方便的,以下是配置的步骤:

  • File > New > Project > Java project > NEXT

  • 选择从现有的souce来创建工程"Create project from existing source" 选择nutch的主目录

  • 下一步

  • 把conf目录添加到classpath(选择在项目的build选项里面)

  • 把"src/java", "src/test" 还有所有的扩展(plugin)中的 "src/java" 和 "src/test" 添加到源代码目录( source

  •  
    2008-03-24 23:18

    经过搜索网页和邮件列表,似乎很少有关于如何使用分布式文件系统(HDFS)HadoopMapReduce来设置Nutch(原来称作NDFS)的文章。 这份指南提供了在多台机器上使用Hadoop文件系统一步一步地运行Nutch,包括能够通过多台机器运行索引(抓取)和搜索。

    这份文件并未深

     
    2008-03-24 22:57
    Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。
    一、总体介绍:

        1、先注入种子urls到crawldb
        2、循环:
    • generate 从crawldb中生成一个url的子集用于抓取
    • fetch 抓取上一小的url生成一个个segment
    • parse 分析已抓取segment的内容
    • update 把已抓取的数据更新
     
    2008-03-24 22:51
    一个成熟的商业搜索引擎的cache应该是比较成功的,因为在长期的实践中证明 cache的好坏很大地影响着搜索引擎的效率。虽然I/O、算法等等很大地影响着搜索效率,但是在相差不大或着说在同一数量级上时,cache却可以让引 擎的效率成倍或大大地提高。在nutch中当然也是有cache的,只不过比较初级而已。
           在nutch中负责cache的是LuceneQueryOptimizer
     
    2008-03-24 22:48

    Nutch的Analysis包详解

    http://i.cn.yahoo.com/babatu/blog/p_7/

     
    2008-03-24 22:46
    21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针。现在的商业搜索引擎不少,但都是保密的,不便研究。而Nutch 是一个开源Java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作
     
     
       
     
     
    文章分类
     
     
    Cdn(17)
     
    Linux(57)
     
    Grid(2)
     
    P2p(8)
     
     
     
    Ace(36)
     
    Hps(16)
     
    web2.0(60)
     
     
     
    News(4)
     
     
    Hadoop(57)
     
     
    c++(31)
     
    Stl(6)
     
     
     
     
    Life(11)
     
     
     
     
    Lucene(28)
     
     
     
    Java(26)
     
     
    Shell(12)
     
     
     
     
     
     
    Python(43)
     
     
     
    Fun(1)
     
     
     
     
     
     
    Http(5)
     
     
     
     
     
    Gh(4)
     
     
    Test(6)
     
     
    Sun(3)
     
     
     
     
    Vm(6)
     
    Gnome(61)
     
     
    Gnu(44)
     
    Ubuntu(21)
     
    Js(1)
     
    Fc(2)
     
     
    Webkit(49)
     
     
     
    A11y(3)
     
     
    Vim(2)
     
     
     
     
    Jfkj(0)
     
     
     
    Ibm(1)
     
    Kvm(1)
     
       
     
    文章存档
     
         
     
    最新文章评论
      

    为什么我在多机的情况下显示是0 nodes ,你是怎么做到的啊
     

    没有数据 没有脚本。没有论文引用。
     

    沙发..
     

    这篇文章不知道原作者到底是谁,各论谈博客到处都是,就没有工具URL,搞什么啊。
     

    这篇文章不知道原作者到底是谁,看到了N处都不,就没有工具URL,搞什么啊。
       
    帮助中心 | 空间客服 | 投诉中心 | 空间协议
    ©2012 Baidu