您正在查看 "Search Engine" 分类下的文章
2009年03月17日 星期二 11:32
排名不分先后,肯定还有很多新的搜索引擎未能搜集齐全,欢迎补充。 此处主要针对新涌现的行业搜索、垂直搜索引擎,累计137家(不包括传统搜索及其分类搜索),这应该是目前最全面的整理结果。
(行业搜索:搜索对象针对所在的行业,采用类似传统通用搜索引擎的分词索引技术,返回关键词最匹配的结果。垂直搜索:搜索对象针对所在的行业,采用数据采集、数据挖掘、数据整理等技术,返回经过加工处理的结果。)
一、综合搜索 (9)
酷讯 |
2008年09月28日 星期日 14:13
搜索引擎设计实用教程(以百度为例)——之四:相关提示功能
中科院软件所 malefactor
2005年11月
相关提示也是几乎所有搜索引擎提供的一个附加功能。所谓相关提示,就是对于用户提交的查询进行分析,然后根据其它用户相似的查询给予用户提示,比如我输入查询“大长今”,检索系统会提示其它象“大长今主题曲”,“大长今下载”等等相关的一些其它用户查询。
那么搜索引擎是根据什么原则对于其它用户的查询进行选择来提示用 |
2008年09月28日 星期日 13:42
搜索引擎设计实用教程(以百度为例)——之三:对百度分词算法的进一步分析
中科院软件所 malefactor
2005年11月
上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误。
那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将“北京华烟云”分词为<北,京华烟云>,从这里看好像采用了反向最大匹配, |
2008年09月28日 星期日 13:20
搜索引擎设计实用教程——之二:Spelling Checker拼写检查错误提示(以及拼音提示功能)
中科院软件所 张俊林
2005年11月
拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误。那么我们就来分析看看百度是怎么实现这一功能的。
我们分析拼写检查系统关注以下几个问题:
(1)系统如何判断用户的输入是有可能发生错误的查询呢 |
2008年09月28日 星期日 12:40
搜索引擎设计实用教程(以百度为例)——之一:查询处理以及分词技术
中科院软件所 malefactor
2005年11月
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大 |
2008年09月23日 星期二 14:04
作者:谷歌首席工程师 Amit Singhal 来源:Google 黑板报 酷勤网收集 2008-07-21
今年 5 月,我们的副总裁乌迪•曼博曾撰博介绍谷歌搜索质量小组,这个组主要负责谷歌搜索结果的排序工作。尤迪介绍了这个“质量”小组的不同团队,包括核心排序团队、国际搜索团队、用户界面团队、网络作弊以及其他团队。在这篇文章中,我希望向你重点介绍他们其中的一员:负责核心排序的团队。
首先让我介绍我自己:我的名字是 Amit |
2008年09月23日 星期二 12:26
Contents
- Introduction
- Setup
- Overall results
- Yahoo! Slurp
- Googlebot
- MSNbot
- Spam bots
Introduction
In the pre |
2008年09月23日 星期二 11:50
作者:不详 来源:互联网 酷勤网收集 2007-08-09
中国人有句古话叫做:“学以至用”。若干年我一直对这句话封为神灵,因为只用致用才能看到学的效果,了解到学的不足,享受到学的快乐。
搜索引擎在过去两年的发展并没有大突破,但是却逐步走向成熟,走向商业。正是这两年的时间,部分的业余时间都用来做一些开发和研究,当我逐渐了解的更多的时候,也是我结束单枪披马的时候。未来的兴趣也许 |
2008年09月23日 星期二 11:32
作者:不详 来源:互联网 酷勤网收集 2007-08-09
搜索引擎走到今天,已经是一个结束过去,开辟未来的时候了。为了说清楚我所讲的第三定律,我们先来回顾一下第一和第二定律。
■ 第一定律 相关性定律
听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得 |
2008年09月22日 星期一 22:10
摘要:文本聚类是搜索引擎和语义web的基本技术,本文和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。
思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/ID |
2008年09月08日 星期一 20:00
目前对汉语分词方法的研究主要有三个方面:基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。
基于规则的分词方法
基于规则的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词) 。常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一 |
2008年09月08日 星期一 17:57
|
摘 要
百度的分词算法系统:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果。另外,GOOGLE也是采用正向最大匹配分词算法,不过好像没有那个专用词典,所以很多专名都被切碎了。
|
|
2008年09月08日 星期一 11:01
|
摘 要
文章的第2部分按照时间顺序详细剖析了各种链接分析算法,对不同的算法进行了比较。第3部分对这些算法做了评价和总结,指出了存在的问题和改进方向。
|
1.引言
万维网WWW(Worl |
2008年08月30日 星期六 12:44
来源:http://www.kreny.com/pagerank_cn.htm
4.实际应用时的问题
PageRank 的基本考虑方法并不是很难的东西。实用效果中的巨大成分并不是复杂离奇的算法,而是进行简单的线性变换,倒不如都属于简明直观的类别吧。但是,实际使用 Web 超级链接构造来计算 PageRank 的话,不是简单地能够用嘴巴来说明的东西。主要的困难主要有二个。一、由来于纯粹假设的数值模型和现实世界的不同;二,在实际数值计算上(专门技术的)困难。
准备:数 |
2008年08月29日 星期五 22:48
来源:http://www.kreny.com/pagerank_cn.htm
本文对作为评价甚高的搜索引擎 Google 的核心技术之一 PageRank (网页等级)的基本的概念和评价原理进行解释。
0.索引
|