文章列表
 
您正在查看 "开源搜索引擎研究" 分类下的文章

2011年11月05日 星期六 0:30

Paoding分词过程中词典是相关重要的一环,其特性主要有:

1)多词典支持,词典功能区分;

2)词典加载入内存使用,使用预加载和Lazy Mode

 
2011年10月28日 星期五 23:51

1.1     主要流程


       分词主要流程是:

 
2011年10月25日 星期二 22:42

1.1  分词流程

Lucene3.0中,对分词主要依靠Analyzer类解析实现。Analyzer

 
2009年07月01日 星期三 11:05

      Nutch构建好了一种搜索引擎架构,在此基础上可以进行二次开发,实现个人规模的搜索引擎、企业局域网搜索引擎、对整个WEB的搜索引擎等不同规模的搜索引擎。另外还可以为达到一些特殊的目的建立起的搜索引擎。不论是建立何种规模的搜索引擎,一般情况下都需要对其进行二次开发,对源代码进行相应的功能性修改。通过本次实验,我们总结出一些二次开发中的重点环节,这里做一个大致的描述。

1.1 信息源选择及规范制定
       对信息源的选择可以反映出搜

 
2009年06月13日 星期六 20:23

   通过实验数据,可以得到一些关于Nutch搜索引擎的结论:

       1

 
2009年06月10日 星期三 22:38

1 中文分词介绍
中文分词是在做检索类系统时需要重点考虑的一个因素。Nutch的本土化过程也需要更改对中文分词的支持。目前,Nutch中文分词方式大致有两种方式:
一是修改源代码。这种方式是直接对Nutch分词处理类进行修改,调用已写好的一些分词组件进行分词。
二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。
以上两种方式都是可取的。目前,由于开源社区的活跃,已经有很多种分词组件的出现,无论是修改源代码的方式还是编写分词插件的方式,都是依

 
2009年06月08日 星期一 13:26

3搜索结果优化
使用nutch 0.9自带的程序包搜索的时候,存在一个冗余数据的情况。例如,如果想搜索关于姚明、易建联等的信息时,nutch默认会把网页中导航条或者一些标题等中包含姚明和易建联信息的页面检索出来,以腾讯为例,http://sports.qq.com/nba/的导航条部分包含了姚明和易建联。但这个页面的其他信息没有设计到姚明和易建联,所以这个页面可能实际上不是我们想要的;
还有一种情况,当我们想搜索“莎娃”的时,nutch会抓取到

 
2009年06月06日 星期六 16:06

通过一系列的离线活动(对于查询用户而言)的开展,Nutch检索系统相对而言变得简单了许多。在二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。
1 摘要提取
1.1 摘要提取源码分析

**
      * Low level api to get the most relevant (formatted) sections of the document.
     * 底层API,获取文档中最相关的(格式化)部分
      * This method has been made

 
2009年06月04日 星期四 20:03

搜索引擎架构时都应当考虑到索引更新的问题,即当互联网上的网页发生改变(增加或者删除、修改)时搜索引擎端索引也应当进行相应的变化。Nutch也提供了一些方案用于更新索引,不过看起来比较烦琐。对于小量索引而言,可以采用最简单最聪明也是明笨的方法,即删除原有索引重新爬取网络。这种方式对于小量的数据而言,可以算作一种不错的选择吧,而且更新也比较彻底。然而当数据量比较大时,采用这种方式耗时较多,并不是最优的方案。前面实验中对Nutch的命令进行了分析和详细解释,其实可以采用SHELL脚本的方式解决索引更新的问题

 
2009年06月02日 星期二 15:50

7 parse
它是“org.apache.nutch.parse.ParseSegment”的代称,它对一个segment运行ParseSegment。

使用方法:
bin/nutch parse <segment>

参数说明:
<segment>:Segment文件夹

配置文件:
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

说明:
它依赖于多个插件来解析不同格式的内容,支持的格式及插件有:
内容格式 插件 备注
text/html parse-html 使用NekoHTML 或者TagSoup解析H

 
   
 
 
文章存档
 
     
 
最新文章评论
  

回复hbwxwqc:看最后一句话哈,需要用程序去管理,或者不对上传操作的请求作权限控制
 

[表情]
 

是在两台电脑上测试的,不存在缓存问题
 

JSESSIONID作为URL参数传过去,传不传火狐有时报302,有时上传正常,这是怎么回事
 

不行啊,输入javaws http://cluster.ischool.drexel.edu/~cchen/citespace/current/c
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu