● 摘要
为适应读者对学术文献的获取在深度与广度上越来越高的要求,数字图书馆采购了大量的文献数据库。不同数据库之间,在文献资源的覆盖范围、数据格式、系统平台、检索方式都普遍存在着差异。这些差异使得用户检索文献十分不便,从而导致大量资源无法被有效利用。因此,图书馆迫切需要一个统一的检索界面,对所有数据库进行统一检索,帮助用户快速找到所需的文献,而学术资源整合系统是实现这一方式的有效途径。
针对数字图书馆中异构数据库的统一整合问题,传统的联邦检索系统,由于受限于各个系统的平台、开放程度的差异,其联邦整合服务的一致性、可靠性、完整性难以得到充分的保障,基于元数据的整合方式是解决这一问题的有效手段。本文基于元数据整合的模式,设计并实现了一个学术资源的整合系统。
本文的主要研究工作如下:
1)分析与比较了文献数据库整合的主要方案,深入分析了联邦检索难以有效解决文献数据库整合的原因,研究并设计了基于元数据整合的元数据的统一表示方法,分析了元数据集成的关键技术和主要方法,研究了基于字符匹配模式的文献查重算法。
2)通过分析学术资源数据库整合的需求,提出了一个面向国际学术资源整合的系统方案,根据该方案划分了核心功能模块,并按照模块进行数据库的设计工作,重点分析了元数据抽取的流程,设计了一种面向学术领域的通用的元数据抽取方法,实现并应用了基于距离算法模型的元数据查重算法。
3)设计并实现了一个国际学术资源整合的原型系统,并利用Solr系统对整合后的564万条数据进行了集中索引。用户可通过原型系统的统一检索界面,对异构的国际学术资源进行统一的检索与结果展示。通过功能与性能测试,验证了原型系统能够满足图书馆对已购资源整合的需求。