百度首页 | 百度空间
 
查看文章
 
百度文档搜索与Google文档搜索的简单比较
2008年03月24日 星期一 下午 01:35

很多有具有参考价值的资料,比如学生写论文报告,老师做课件,找工作准备简历都需要参考其他人的成果。在互联网上,这类资料一般不是普通的html网页,而是以Word、ppt(s)、Excel、pdf等格式存在的。虽然这些文件不象Html文件那样多,但由于它通常会包含一些别处没有的数据和资料,因而显得特别重要。对互联网上这类资源的挖掘和利用,既是搜索引擎的必备功能,也是网民主要的搜索需求之一。例如,北大的天网搜索就将文件搜索作为与网页搜索并列的另一功能;百度和搜狗,就为它们的文档搜索专门建立了一个查询网页,百度文档搜索搜狗特色功能——文档查询;Google和雅虎的高级搜索中也可以限定文档的类型,并支持网页搜索中的语法查询。

查询方式

百度提供3种方式来搜索文档,分别是在网页搜索中使用高级语法——filetype:文档格式 关键词(或关键词 filetype:文档格式),在高级搜索中限定搜索网页格式和进入
百度文档搜索中搜索。Google除了没有提供专门的文档搜索页面之外,另外两种方式与百度相同。

支持的文档类型

百度主要支持doc、ppt、xls、pdf、rtf等5种文档格式的查询,而Google支持的文档格式则有doc、ppt、xls、pdf、ps、rtf、xml、rss、txt、wiki、dwf、swf等,可见Google在支持文档类型上要胜于百度。

检全率

也就是查询结果数量,以查询“电子商务”相关的ppt课件为例,在百度上找到相关网页约2,760篇,而在Google上约有15,300项符合filetype:ppt 电子商务的查询结果,Google的结果数量大概是百度的7倍,可见在检全率上Google也要胜于百度。特别的,如果是查找英文文档,比如查找“search engine”相关的pdf文献,Google返回382,000项结果,而百度中只有3,820篇,巧得很,刚好是100倍。

检准率

也就是查询结果与关键字的相关性与匹配度,同样以搜索“电子商务”相关的ppt课件为例,下面两张图分别是百度和Google搜索结果的第一页:

百度搜索“电子商务”ppt文档第一页结果

Google搜索“电子商务”ppt文档第一页结果

从以上结果页面可看出,从搜索结果的相关性上来看,百度文档搜索要优于Google文档搜索,百度对文档标题的提取能力要强于Google。在Google中搜索出来的文档,似乎多数是文件名,而不是文章中的标题。

综上所述,百度文档搜索与Google文档搜索各有千秋,在中文文档的搜索上,百度的相关性更好,但是返回数量略显不够;Google虽没有提供简单、人性化的文档搜索页面,但支持的文档类型和返回结果数量十分丰富,并且Google在英文文献的查找上是具有先天的优势的。

作者/出处:一个叫搜索引擎的家伙
本文地址:http://hi.baidu.com/ccnuzxy/blog/item/adf15b8936a7d3b70e244453.html


类别:搜索引擎研究评测 | 添加到搜藏 | 浏览() | 评论 (7)
 
最近读者:
 
网友评论:
1
2008年03月24日 星期一 下午 02:12
文档搜索还是要相关性高,论文具有权威性些更好,泛泛的追求数量也只是一种杂乱的堆砌.
当然搜索英文现在最好还是用google.百度本身就弱化了这方面的数据
 
2
2008年03月24日 星期一 下午 02:46
╭☆ ╭╧╮╭╧╮╭╧╮╭╧╮ ☆╮
╰╮ ║來│║看│║望│║你│ ╭╯
☆╰ ╘∞...多一个朋友...多一份知心
等你回访,请留下脚印, 沏茶等候!
 
4
2008年03月24日 星期一 下午 04:18
嘿嘿 其实说搜到所少搜索结果根本没哈意义
说搜到五百万条结果 但顶多显示1000条
 
5
2008年03月24日 星期一 下午 04:23
“百度对文档标题的提取能力要强于百度”
语法问题 呵呵:)
 
6
2008年03月24日 星期一 下午 04:26
语法问题已改正 谢谢提醒哈
 
7
2008年03月24日 星期一 下午 04:30
大搜索里的这种文档搜索一是能提供一些有用的信息,二是能给我们提供好的页面样式(ppt) ,如果真要引用的话还得认真考察它的出处,呵呵
 
8
2008年03月24日 星期一 下午 08:41
在百度的空间里发这些,可信度值得怀疑。
 
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请输入下图中的四位验证码,字母不区分大小写。
看不清?
 

     

©2008 Baidu