文章列表
 
您正在查看 "搜索引擎技术(search engineer)" 分类下的文章

2007年04月29日 星期日 19:50

大家比较熟悉使用各种搜索引擎,但是,还有一种更主动和专门的搜索技术:网络爬虫。

1 爬虫技术研究综述
引言
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,

 
2007年04月29日 星期日 19:45
中文搜索引擎技术揭密:系统架构(转)
互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活。互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破灭到逐步回 暖;从“网络广告”到“拇指经济”,从“网络游戏”到“搜索力经济”。目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选择拥有自己的搜索引擎。国
 
2007年04月29日 星期日 19:41
一、引言

  随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,也就是我们经常所说的"Rich Data, Poor Information"。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。

  现在在网上的搜索引擎也已经有很多,比较著名的有AltaVista, Yahoo, InfoSeek, Metacrawler, SavvySearch等等。国内也建立了很多的搜索引擎,比如:搜狐、
 
2007年04月07日 星期六 13:42

在应用中加入全文检索功能——基于Java的全文索引引擎Lucene简介 作者: 车东 Email: chedongATbigfoot.com/chedongATchedong.com

转自:http://www.chedong.com/tech/lucene.html

写于:2002/08 最后更新: 02/22/2006 14:42:55
Feed Back >> (Read this before you ask question)

 
2007年04月07日 星期六 13:27
 
2007年04月07日 星期六 13:26
世界上最著名的220搜索引擎大全:

  1. - 163 - Chinese
 
2007年04月07日 星期六 13:07
原文:http://lqgao.spaces.live.com/blog/cns!3BB36966ED98D3E5!408.entry?_c11_blogpart_blogpart=blogview&_c=blogpart#permalink

终于清楚如何用读Lucene的索引 :-)。本文要介绍一下如何利用IndexReader获取信息。为什么要读索引呢?因为我需要实现这些功能:
(1) 统计term在整个collection中的文档频度(document frequency, DF);
(2) 统计term在整个collection中出现的词次(term frequency in whole collection);
(3) 统计term在某个文档中

 
2007年04月04日 星期三 13:43

首先建立公共资源

package testlucene;

public class Constants {

    public final static String INDEX_FILE_PATH = "c:\\test"; //待搜索的文件
    public final static String INDEX_STORE_PATH = "c:\\index"; //索引的位置
}

建立索引

package testlucene;

 
2007年04月04日 星期三 13:32

语义搜索引擎综述
摘要:本文综述了搜索引擎发展的现状以及工作原理、评价指标等主要技术特点。同时引出了语义搜索引擎在搜索引擎发展方面的重要地位。

关键字:搜索引擎、语义搜索

1.网络搜索引擎的现状
      搜索引擎在互联网的重要地位由来已久。Yahoo 作为门户网站奇迹般崛起所依靠的正是搜索引擎,Google 也以搜索引擎的技术创新、竞价排名和专业风格创造了新的奇迹。在国内

 
2007年04月04日 星期三 10:59
简介
Doug Cutting 于2000年开始的项目 2001年9月后加入apache, Lucene是Doug Cutting的middle name 。 目前Lucene已经是apache的top level的项目, 已经不在jakarta下面, 同时也有了python,perl,c++,.net, Ruby(进行中)多个版本

Lucene 主要的两个任务:indexing and searching
Indexing主要使用的类    IndexWriter 较核心的类,index文件由它创建
Directory 一个抽象的标示index文件地址

 
 
   
 
 
文章存档
 
     
 
最新文章评论
  

[表情]
 

正研究到本体推理这一步,加加你为好友,可以啊?以后请教请教你!
 

很有帮助,谢谢!
 

谢。写得很清楚
 

贵妇狗
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu