查看文章 |
很多有具有参考价值的资料,比如学生写论文报告,老师做课件,找工作准备简历都需要参考其他人的成果。在互联网上,这类资料一般不是普通的html网页,而是以Word、ppt(s)、Excel、pdf等格式存在的。虽然这些文件不象Html文件那样多,但由于它通常会包含一些别处没有的数据和资料,因而显得特别重要。对互联网上这类资源的挖掘和利用,既是搜索引擎的必备功能,也是网民主要的搜索需求之一。例如,北大的天网搜索就将文件搜索作为与网页搜索并列的另一功能;百度和搜狗,就为它们的文档搜索专门建立了一个查询网页,百度文档搜索和搜狗特色功能——文档查询;Google和雅虎的高级搜索中也可以限定文档的类型,并支持网页搜索中的语法查询。 查询方式 支持的文档类型 百度主要支持doc、ppt、xls、pdf、rtf等5种文档格式的查询,而Google支持的文档格式则有doc、ppt、xls、pdf、ps、rtf、xml、rss、txt、wiki、dwf、swf等,可见Google在支持文档类型上要胜于百度。 检全率 也就是查询结果数量,以查询“电子商务”相关的ppt课件为例,在百度上找到相关网页约2,760篇,而在Google上约有15,300项符合filetype:ppt 电子商务的查询结果,Google的结果数量大概是百度的7倍,可见在检全率上Google也要胜于百度。特别的,如果是查找英文文档,比如查找“search engine”相关的pdf文献,Google返回382,000项结果,而百度中只有3,820篇,巧得很,刚好是100倍。 检准率 百度搜索“电子商务”ppt文档第一页结果
Google搜索“电子商务”ppt文档第一页结果 从以上结果页面可看出,从搜索结果的相关性上来看,百度文档搜索要优于Google文档搜索,百度对文档标题的提取能力要强于Google。在Google中搜索出来的文档,似乎多数是文件名,而不是文章中的标题。
综上所述,百度文档搜索与Google文档搜索各有千秋,在中文文档的搜索上,百度的相关性更好,但是返回数量略显不够;Google虽没有提供简单、人性化的文档搜索页面,但支持的文档类型和返回结果数量十分丰富,并且Google在英文文献的查找上是具有先天的优势的。 作者/出处:一个叫搜索引擎的家伙 |