百度空间 | 百度首页 
 
查看文章
 
元搜索引擎及其发展
2008-01-04 17:16
(广东商学院信息学院,广东广州 510320)
  [摘 要] 本文简单介绍了元搜索引擎及其构成和工作原理,分析了元搜索引擎所具有的优点和普遍存在的不足,提出了提高元搜索引擎整体性能的建议,展望了元搜索引擎的发展趋势。
  [关键词] 搜索引擎;元搜索引擎;信息检索
  
  元搜索引擎(Meta Search En—gine)是一种将多个独立的搜索引擎集合在一起形成的检索工具,元搜索引擎中各独立搜索引擎被称为“目标搜索引擎”或“成员搜索引擎”,它们各自保持其原来的局部数据模式和自己的检索指令。元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。它是在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统,又称作搜索引擎之上的搜索引擎。
  元搜索引擎又可分为搜索引擎目录和多元搜索引擎两种类型。搜索引擎目录是检索工具的检索工具,它将主要的搜索引擎集中起来,按分类编排组织成目录,帮助、引导用户根据检索需要选用搜索引擎。多元搜索引擎是将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问同时提交给多个独立的搜索引擎,实现多个数据库同时检索,并根据多个独立搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等,标明检索结果的来源后,输出给用户。
  
  1 构成与工作原理
  
  元搜索引擎就像是一个具有双层客户机/服务器机构的系统,一般由检索请求提交、检索接口代理、检索结果显示3部分组成。
  (1)请求提交。负责实现用户的检索设置要求,包括调用哪些独立搜索引擎、是否有最长检索时间设置、是否提供高级检索服务、设置每个搜索引擎返回的检索结果数量、在线帮助是否有效等。若用户选择个性化检索,则推理机制将根据用户基本信息与动态知识库进行分析推理用户的当前意向,进行查询求精处理,并根据用户对返回结果的行为使用反馈机制动态更新知识库。
  (2)检索接口代理。负责将用户的检索请求“翻译”成能够满足不同搜索引擎“本地化”要求的格式,包括是否支持布尔检索、短语检索、自然语言检索等高级检索特性,是否能够实现检索请求的“本地化”转换。它是元搜索引擎的一个重要指标。
  (3)结果显示。负责所有来源搜索引擎检索结果的去重、合并、输出处理等。元搜索引擎如何将独立搜索引擎的检索结果以统一的格式显示给用户,是评测其检索性能的重要手段。
  元搜索引擎的工作过程分为6步:接受用户的原始查询;把原始查询分别转换为各个成员搜索引擎能够接受的形式:向成员搜索引擎发送查询;收集各个搜索引擎的原始查询结果;对原始查询结果进行合成,形成最终结果;把最终查询结果递交给用户。
  也就是说,当用户查询一个关键词时,Meta Search Engine就将用户的查询请求按照知识库中的信息转换为多个搜索引擎所能识别的格式,然后分别发送给各搜索引擎,由这些搜索引擎完成实际的信息检索,最后再收集各搜索引擎的返回结果,进行比较、分析、合并、去除重复,再以一定的格式返回给用户。
  
  2 优点与不足
  
  通过分析研究,笔者认为,元搜索引擎具有以下几方面的优点:
  (1)检索效率高。元搜索引擎集成多个单个成员搜索引擎,可以一次在多个独立的搜索引擎中并发查询,增加了检索的范围,扩大了查询的区域,信息覆盖率显著增加,因而能够获得较高的查全率。同时,元搜索引擎利用各种智能软件,根据用户要求对各搜索引擎返回的信息进行过滤,通过使用过滤器或改进算法对成员搜索引擎的查询结果进行处理,删除不合适或重复的网页并对结果按关联度高低进行排序等,查准率得到较大提高。
  (2)检索工具扩展性能强。元搜索引擎集成多个独立搜索引擎,突破单个独立搜索引擎的组织边界,用户可以按照自己的习惯和需求定制具有个人风格的查询工具。另外,元搜索引擎既能直接搜索动态网页,如在一个元搜索引擎中集成一般通用的搜索引擎的功能,又能集成基于OPAC的图书目录检索功能。
  (3)服务多样化。元搜索引擎提供内部“黑箱操作”和外部“人性化”服务模式,根据用户个性化需求进行灵活的结果输出。成员引擎各自保持其原来的局部数据模式和检索指令,有利于“各尽其能”;元搜索引擎的集成界面可实现用户选择和利用合适的若干成员引擎进行信息检索。
  (4)不需考虑网页索引数据库的建立和维护。元搜索引擎可以有也可以没有自身的数据库,能集中精力与财力用于查询请求的分发与查询结果的处理。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,然后提交给多个独立搜索引擎进行不同的处理再作为自己的结果返回给用户,最后为用户提供一个统一界面的搜索结果报告,这弥补了独立搜索引擎搜索不全的缺点,提高了查全率。
  虽然元搜索引擎具有基于Robot搜索引擎和目录搜索引擎无可比拟的优越性能,给人们在互联网上检索信息带来了极大便利,但是,现有的元搜索引擎普遍存在以下不足:
  (1)检索时间有时过长。虽然元搜索引擎采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,但是由于一次调用多个独立搜索引擎,并将用户的检索请求转换处理后进行搜索,然后将所有查询结果集中起来以统一的格式呈现在用户面前,而从各独立搜索引擎返回的结果中常有很多重复结果,数量庞大,因此,在去重、排序、聚类等处理时,系统将面临巨大负载,增加了检索时间。
  (2)检索结果全面性和可靠性较差。元搜索引擎检索时间的限制、检索结果数量的限制等,限定了从每个成员引擎返回的检索结果的数量。此外,因各成员引擎彼此相对独立,最后返回给用户的检索结果往往不完整、常常有重复,不能完全满足用户需求,用户需要做更多的筛选,从而影响了检索结果的全面性和可靠性。
  (3)不能灵活控制结果的输出。由于元搜索引擎是通过一个统一用户界面帮助用户利用若干独立搜索引擎来实现检索操作,因此,在查询输入处理及输出显示时可能出现问题。
  (4)检索结果排序不够理想。因为不同搜索引擎在本身查询结果排序过程中采用的算法相差很大,元搜索引擎必须整合这些使用不同排序算法产生的结果,以统一的结果形式返回给用户。如果仅按各搜索引擎自己的结果序列顺序显示输出,结果很可能有重复。
  (5)信息搜索覆盖面受到限制,影响了检索效果和质量。因为元搜索引擎实现检索语法转换的能力仍然有限,不支持指定字段检索等特殊检索特性的高级检索功能,不同的搜索引擎在解析查询表达式的方式、处理大小写字母的方式、是否允许自然语言查询、是否可以采用邻接操作符等方面都可能有差异。此外,元搜索引擎不能正确处理一些词组和布尔检索算符,发挥不了各个独立搜索引擎的高级检索特色。为了尽可能多地挂接搜索引擎,元搜索引擎通常只使用简单、直接的搜索策略,一般仅支持not、and、or等简单的布尔逻辑语法操作,因此,许多大型搜索引擎被排除在外,影响了信息检索覆盖面。


(6)检索式处理较复杂。由于大部分搜索引擎互不兼容,互操作性差,用户接口不一致,一些包含多个词或复杂逻辑的查询请求,其查询式常被一些成员引擎误解。
  
  3 提高整体性能的建议
  
  (1)扩大返回结果的数量。虽然元搜索引擎可以将各个独立搜索引擎的检索结果清晰地反映给检索者,相对于独立搜索引擎来说,元搜索引擎的检索结果是非常少的。对于那些检索类型不知道采用哪个搜索引擎更有针对性的检索者,应提供通过分析元搜索引擎反映出的各个独立搜索引擎检索此类信息的能力来判断究竟采用哪个独立引擎,以扩大检索结果的数量。
  (2)增强对检索结果的后处理以及个性化服务。由于元搜索引擎的精力主要放在了对检索结果的后处理上,所以可以先将各个独立搜索引擎返回的结果按照它们在各个独立搜索引擎出现的次数、位置以及检索到此结果的独立搜索引擎的重要性等综合因素相对合理地排序。然后,检测死链接、重复网页、不相关网页,并将这些冗余网页剔除,给用户提供更高质量的检索结果。再将所有检索结果自动聚类,方便用户浏览。应融合关键词检索型和目录浏览型搜索引擎的优势。个性化服务也是元搜索引擎生存、发展的一个重要方面,用户使用搜索引擎,并不一定在乎它是怎样的搜索引擎,而是想得到自己希望得到的准确信息,并且享受个性化的服务。
  (3)积极向不同领域多元化发展。元搜索引擎要重新给自己定位,向信息咨询台的方向发展,为用户提供各种各样的信息搜索服务。元搜索引擎要从技术到经营方式上逐步摆脱独立搜索引擎的限制,确立属于自己的客户群,避免与独立搜索引擎冲突,这将更有利于元搜索引擎的发展。
  (4)加强实现检索语法转换的能力。要重视交叉语言检索的研究和开发,使元搜索引擎尽可能多地支持指定字段检索等高级检索功能,尽量发挥各个独立搜索引擎的高级检索特色,弥补现有元搜索引擎普遍存在的检索语法转换能力的不足。
  (5)加强检索式处理技术,改善检索结果的排序,缩短检索时间。改善检索式处理技术,使大多数搜索引擎都能支持更复杂的逻辑。减少检索结果的重复,改善和提高筛选技术,尽量缩短检索时间,在保证检索效率的同时尽可能利用一切可用信息提高结果排序的质量。目前的检索处理方法主要是“将响应最快的搜索引擎的搜索结果先返回”、“星星体系”、“位置排序法”、“摘要排序法”、“位置/摘要排序法”,这些方法都各有利弊。为满足用户需求,要深入开展检索结果处理方法研究。
  
  4 发展趋势
  
  (1)基于智能代理的信息过滤和个性化服务的元搜索引擎研究
  由于智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,将智能代理技术应用于元搜索引擎的结构中,构建智能元搜索引擎,可使元搜索引擎能够不断学习用户的信息需求,检索时自动搜索相关信息源,依据检索模型智能地提供“命中”结果,从而提供个性化的服务;可以按照用户要求定期反馈,实现定期和定题检索;能依据用户的信息反馈,自动对知识库里的知识进行纠错、增加等维护和更新;能够分析整理成员搜索引擎的工作记录数据,建立调用策略模型,实施检索时动态地决定调用策略,将搜索请求递交给最适合的搜索引擎处理,并自动将用户感兴趣的、对用户有用的信息提交给用户。
  元搜索引擎智能代理的核心是搜索引擎知识库的预处理和搜索引擎调用策略的确定。其具体表现在查询定制、自动处理、结果过滤与排序上。即允许用户灵活地设置查询条件和搜索选项,如选择合适的源站点、搜索范围及限定语言、地域或类型等,识别与理解用户需求并自动生成调用策略激活成员搜索引擎,整合成员搜索引擎的返回信息并按时间或关联度对结果排序。因此,研究和构建智能元搜索引擎是元搜索引擎的一个重要发展方向。
  (2)基于分布式体系结构P to P和网格计算技术的元搜索引擎研究
  首先,作为目前流行的一种新兴网络模型——计算机对等联网(Peer—To—Peer,P to P)是真正的分布式计算技术,P to P引导网络计算模式从集中式向分布式转移,使网络应用的核心从中央服务器向网络边缘的终端设备扩散。P to P技术的优势是开发出强大的搜索工具,使用户能够深度搜索文档。这种搜索无需通过Web服务器,不受信息文档格式和宿主设备的限制,达到传统目录式搜索引擎(查全率在20%~30%之间)无可比拟的深度(包括网上所有开放的资源)。P to P对等搜索技术应用于元搜索引擎,将为Internet的信息搜索提供全新的解决之道,是元搜索引擎发展的趋势之一。
  其次,源于美国联邦政府过去10年来资助的高性能计算项目——网格计算技术,试图实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。网格是把信息技术具体化、计算资源虚拟化,并把所有通过联网的计算资源都按共享原则参与进来,达到计算资源的全面共享,以满足不断变化的计算需求。所以,开发基于网格的搜索引擎不仅可以大大提高资源检索的效率,实现即查即得,还可以实现对异构资源的检索,并获得很高的查全率和查准率。构建基于网格的搜索引擎是目前研究的另一个热点。
  (3)具有交叉语言检索功能的元搜索引擎研究
  交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用用户熟悉的语言显示。资源标注、编目和描述是信息查找的基础,结构化的资源(XML)和资源的描述框架(RDF)互相配合,将大大提高信息查找效率。XML可简化元数据的提取工作,从而协助人们寻找信息,并有助于信息生产者和信息消费者的相互发现。如果说在网络的支持下,HTML语言解决了在异构平台间传送数据和文档,那么基于XML的VRML和SMIL解决了在异构平台间传送感受的可能性问题。研究和构建具有交叉语言检索功能的元搜索引擎,将彻底打破元搜索引擎的语言障碍和国别限制,扩大元搜索引擎的应用范围,是元搜索引擎的一个重要发展方向。
  (4)融合知识发现技术的元搜索引擎研究
  汉语的自动分词(包括对网络信息标引和对用户检索输入的切分)、名称的自动识别不仅是现有Web搜索引擎的瓶颈,而且也是元搜索引擎必须解决的关键技术。知识发现技术与人的思维行为模式相吻合,元搜索引擎的信息搜索以知识为单元,可以使检索结果深入到知识单元,提高信息检索的针对性和元搜索引擎的个性化服务性能,这又是一个值得研究的热点方向。
  
  5 结 语
  
  元搜索引擎是为弥补传统搜索引擎的不足而出现的一种辅助检索工具,有着传统搜索引擎所不具备的许多优势。但是,元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术和结果综合技术等。用户界面的改进、调用策略的完善、返回信息的整合以及最终检索结果的排序,仍然是未来元搜索引擎研究的重点。因此,为切实全面提高元搜索引擎的整体性能,必须解决下列问题:(1)检索技术综合运用平台,支持匹配、逻辑与位置限定等检索;(2)检索语言自动转换,包括自然语言理解和与成员搜索引擎相匹配的格式转化;(3)统一集成界面,多样化的检索选项和功能设置;(4)智能调用策略,选择并激活合适的成员搜索引擎;(5)高检索效率,剔除死链接,过滤虚假与垃圾信息,而不遗漏真实信息;(6)互动机制,信息推荐、信息反馈与信息跟踪服务。


类别:情报学苑|图情观察 | 添加到搜藏 | 浏览() | 评论 (0)
 
最近读者:
 
网友评论:
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu