● 摘要
现代大型门户信息系统普遍具有数据类型繁多、系统结构复杂等特点,这一系列特点都给系统的统一检索带来了困难。而大型企业的门户信息系统更是因为其复杂的业务流程而存储了大量的数字文档和资料。这其中都包含了海量的数据与信息,这些数据与信息的存储结构是异构的,存储位置是分布式的。由于缺乏能够在各种数据结构间传输的文件格式与传输技术,解决针对异构、分布式数据的检索问题一直比较复杂。现在,随着Web服务技术的出现以及成熟,针对异构数据源中的数字资源进行统一检索将更加方便。本课题来源于“南水北调中线干线建管信息系统文献统一检索平台”。目的是设计并实现一个用户仅需输入一次检索关键字即可得到所有相关结果的检索平台。本文首先针对不同的信息检索模型以及文献检索方式进行了分析比较,讨论了各种检索模型和检索方式之间的优缺点。基于以上分析,本文提出了一种将布尔检索与向量检索相结合,充分利用布尔检索的精确性和向量检索相关度概念的统一检索服务模型,在针对文献的查全率和查准率上都达到了良好的效果。该统一检索模型将用户的检索词分发给元数据检索模型、全文检索模型以及自定义扩展检索模型,并对各检索模型返回的结果集进行融合,按照统一的格式进行整合后返回给用户。其次,在统一检索服务模型的基础上,进一步讨论了针对检索结果集的融合策略。论文详细地分析了现有的文档融合策略,针对其相关性和在本系统中的可用性进行了研究,并提出一种适合于本系统应用的结果融合方法。利用该方法,不仅可以消除由于多数据源检索带来的检索结果重复问题,还可以将结果重复出现的频率作为结果相关度的贡献因子用来提高结果的相关度。该方法的排序以布尔检索结果为主线,综合考虑全文检索相关度以及结果集中文档出现的频率等因素,提高了检索结果的相关性。最后,本文设计了一种基于Web服务的统一检索平台,该平台作为检索服务的注册代理和结果的反馈代理,将所有针对异构数据源的检索服务及结果返回服务都以Web服务的形式进行了封装,这样的结构能够适应各种异构数据源,极大的提高了系统的扩展性和兼容性。并且,系统给出了统一检索服务的应用示例,验证了系统的功能。
相关内容
相关标签