|
(6)检索式处理较复杂。由于大部分搜索引擎互不兼容,互操作性差,用户接口不一致,一些包含多个词或复杂逻辑的查询请求,其查询式常被一些成员引擎误解。
3 提高整体性能的建议
(1)扩大返回结果的数量。虽然元搜索引擎可以将各个独立搜索引擎的检索结果清晰地反映给检索者,相对于独立搜索引擎来说,元搜索引擎的检索结果是非常少的。对于那些检索类型不知道采用哪个搜索引擎更有针对性的检索者,应提供通过分析元搜索引擎反映出的各个独立搜索引擎检索此类信息的能力来判断究竟采用哪个独立引擎,以扩大检索结果的数量。
(2)增强对检索结果的后处理以及个性化服务。由于元搜索引擎的精力主要放在了对检索结果的后处理上,所以可以先将各个独立搜索引擎返回的结果按照它们在各个独立搜索引擎出现的次数、位置以及检索到此结果的独立搜索引擎的重要性等综合因素相对合理地排序。然后,检测死链接、重复网页、不相关网页,并将这些冗余网页剔除,给用户提供更高质量的检索结果。再将所有检索结果自动聚类,方便用户浏览。应融合关键词检索型和目录浏览型搜索引擎的优势。个性化服务也是元搜索引擎生存、发展的一个重要方面,用户使用搜索引擎,并不一定在乎它是怎样的搜索引擎,而是想得到自己希望得到的准确信息,并且享受个性化的服务。
(3)积极向不同领域多元化发展。元搜索引擎要重新给自己定位,向信息咨询台的方向发展,为用户提供各种各样的信息搜索服务。元搜索引擎要从技术到经营方式上逐步摆脱独立搜索引擎的限制,确立属于自己的客户群,避免与独立搜索引擎冲突,这将更有利于元搜索引擎的发展。
(4)加强实现检索语法转换的能力。要重视交叉语言检索的研究和开发,使元搜索引擎尽可能多地支持指定字段检索等高级检索功能,尽量发挥各个独立搜索引擎的高级检索特色,弥补现有元搜索引擎普遍存在的检索语法转换能力的不足。
(5)加强检索式处理技术,改善检索结果的排序,缩短检索时间。改善检索式处理技术,使大多数搜索引擎都能支持更复杂的逻辑。减少检索结果的重复,改善和提高筛选技术,尽量缩短检索时间,在保证检索效率的同时尽可能利用一切可用信息提高结果排序的质量。目前的检索处理方法主要是“将响应最快的搜索引擎的搜索结果先返回”、“星星体系”、“位置排序法”、“摘要排序法”、“位置/摘要排序法”,这些方法都各有利弊。为满足用户需求,要深入开展检索结果处理方法研究。
4 发展趋势
(1)基于智能代理的信息过滤和个性化服务的元搜索引擎研究
由于智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,将智能代理技术应用于元搜索引擎的结构中,构建智能元搜索引擎,可使元搜索引擎能够不断学习用户的信息需求,检索时自动搜索相关信息源,依据检索模型智能地提供“命中”结果,从而提供个性化的服务;可以按照用户要求定期反馈,实现定期和定题检索;能依据用户的信息反馈,自动对知识库里的知识进行纠错、增加等维护和更新;能够分析整理成员搜索引擎的工作记录数据,建立调用策略模型,实施检索时动态地决定调用策略,将搜索请求递交给最适合的搜索引擎处理,并自动将用户感兴趣的、对用户有用的信息提交给用户。
元搜索引擎智能代理的核心是搜索引擎知识库的预处理和搜索引擎调用策略的确定。其具体表现在查询定制、自动处理、结果过滤与排序上。即允许用户灵活地设置查询条件和搜索选项,如选择合适的源站点、搜索范围及限定语言、地域或类型等,识别与理解用户需求并自动生成调用策略激活成员搜索引擎,整合成员搜索引擎的返回信息并按时间或关联度对结果排序。因此,研究和构建智能元搜索引擎是元搜索引擎的一个重要发展方向。
(2)基于分布式体系结构P to P和网格计算技术的元搜索引擎研究
首先,作为目前流行的一种新兴网络模型——计算机对等联网(Peer—To—Peer,P to P)是真正的分布式计算技术,P to P引导网络计算模式从集中式向分布式转移,使网络应用的核心从中央服务器向网络边缘的终端设备扩散。P to P技术的优势是开发出强大的搜索工具,使用户能够深度搜索文档。这种搜索无需通过Web服务器,不受信息文档格式和宿主设备的限制,达到传统目录式搜索引擎(查全率在20%~30%之间)无可比拟的深度(包括网上所有开放的资源)。P to P对等搜索技术应用于元搜索引擎,将为Internet的信息搜索提供全新的解决之道,是元搜索引擎发展的趋势之一。
其次,源于美国联邦政府过去10年来资助的高性能计算项目——网格计算技术,试图实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。网格是把信息技术具体化、计算资源虚拟化,并把所有通过联网的计算资源都按共享原则参与进来,达到计算资源的全面共享,以满足不断变化的计算需求。所以,开发基于网格的搜索引擎不仅可以大大提高资源检索的效率,实现即查即得,还可以实现对异构资源的检索,并获得很高的查全率和查准率。构建基于网格的搜索引擎是目前研究的另一个热点。
(3)具有交叉语言检索功能的元搜索引擎研究
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用用户熟悉的语言显示。资源标注、编目和描述是信息查找的基础,结构化的资源(XML)和资源的描述框架(RDF)互相配合,将大大提高信息查找效率。XML可简化元数据的提取工作,从而协助人们寻找信息,并有助于信息生产者和信息消费者的相互发现。如果说在网络的支持下,HTML语言解决了在异构平台间传送数据和文档,那么基于XML的VRML和SMIL解决了在异构平台间传送感受的可能性问题。研究和构建具有交叉语言检索功能的元搜索引擎,将彻底打破元搜索引擎的语言障碍和国别限制,扩大元搜索引擎的应用范围,是元搜索引擎的一个重要发展方向。
(4)融合知识发现技术的元搜索引擎研究
汉语的自动分词(包括对网络信息标引和对用户检索输入的切分)、名称的自动识别不仅是现有Web搜索引擎的瓶颈,而且也是元搜索引擎必须解决的关键技术。知识发现技术与人的思维行为模式相吻合,元搜索引擎的信息搜索以知识为单元,可以使检索结果深入到知识单元,提高信息检索的针对性和元搜索引擎的个性化服务性能,这又是一个值得研究的热点方向。
5 结 语
元搜索引擎是为弥补传统搜索引擎的不足而出现的一种辅助检索工具,有着传统搜索引擎所不具备的许多优势。但是,元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术和结果综合技术等。用户界面的改进、调用策略的完善、返回信息的整合以及最终检索结果的排序,仍然是未来元搜索引擎研究的重点。因此,为切实全面提高元搜索引擎的整体性能,必须解决下列问题:(1)检索技术综合运用平台,支持匹配、逻辑与位置限定等检索;(2)检索语言自动转换,包括自然语言理解和与成员搜索引擎相匹配的格式转化;(3)统一集成界面,多样化的检索选项和功能设置;(4)智能调用策略,选择并激活合适的成员搜索引擎;(5)高检索效率,剔除死链接,过滤虚假与垃圾信息,而不遗漏真实信息;(6)互动机制,信息推荐、信息反馈与信息跟踪服务。
|