文章列表
 
您正在查看 "Search Engine" 分类下的文章

2010-07-12 14:23

Tineye:相似图片的选择

http://tineye.com

Tineye利用已有的图片来寻找目标图片。目标图片可以是和原始图片相同或类似的不同分辨率、经过裁剪、修改等变化,Tineye都可以顺利地把它们识别出来。

Multicolour:用缤纷色彩找图

http://labs.ideeinc.com/multicolr/

Multicolour可用于搜索自己需要颜色的相关素材

Visual:步步接近原图

 
2010-06-21 16:34
作为LuceneNutch两大Apach Open Source Project的始创人(其实还有Lucy, Lucene4C 和Hadoop等相关子项目),Doug Cutting 一直为搜索引擎的开发人员所关注。他终于在为Yahoo以Contractor的身份工作4年后,于今年正式以Employee的身份加入Yahoo

下面是笔者在工作之余,翻译其一篇2年前的访谈录,原文(Doug C
 
2009-05-27 13:39

Robots协议是Web站点和搜索引擎爬虫交互的一种方式,Robots.txt是存放在站点根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。当一个搜索引擎爬虫访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名

 
2009-05-21 21:50
美国知名财经杂志《福布斯》网络版周二评出了最具发展潜力的美国10大新型搜索引擎,称这些新型搜索服务商今后将从不同业务领域向搜索巨头谷歌发起挑战。《福布斯》称,虽然谷歌目前市场优势非常明显,但互联网搜索的后来者仍在加强技术开发。美国风险投资协会此前发布的Money Tree报告显示,2008年期间,美国50家搜索引擎创业公司融资总额达3.3亿美元。

事实上,就Cuil.com、Powerset及Wolfram Alpha等新型搜索引擎而言,已经被外界所逐渐了解。

 
2009-05-21 21:36
5月13日,谷歌英文版率先推出了“options”功能,为了保持与国际同步,据内部人士透露李开复对此高度重视,开发团队由刘峻亲自带队受命立下军令状:保证“options”中文版在一周内上线!5月20日,“百宝箱”登陆谷歌中文搜索,时间上不多不少,正好一周!

 
2009-05-10 10:16

IM手机搜索引擎——Byoms

RSS feed和博客搜索引擎——Feedster

 
2009-04-21 15:12



①Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页,将遍历到的网页送到存储服务器(Store Server)中。

② 存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository (贮藏室)中。Repository获得了 每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并

 
2009-04-19 9:44

 
2009-04-16 21:57

一个网页重要性的分析的算法,根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高,则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指,则

 
2009-03-30 22:29

聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于,聚焦爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。

聚焦爬虫的研究核心,集中在以下两点:

 
   
 
 
文章分类
 
   
 
文章存档
 
     
 
最新文章评论
  

回复prometheus2008:哦
 

回复天使街没有人:你好,我学的计算机。
 

亲 冒昧的问一下你是学什么的?
 

yield()和join()的区别 join方法是,用对象名称调用,在一个线程t2中调用另一个线程t
 

非常好!
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu