● 摘要
科学技术的飞速发展,带来了科技资源的迅猛增长。目前,国家科技基础条件平台已整合了七大领域、60类的科技资源,并形成了高达500多万条的科技资源核心元数据。面对海量科技资源核心元数据,设计并实现一套科技资源信息检索系统,快速、准确、便捷地从中获得人们所需的资源信息,对于促进我国科技资源共享、充分发挥科技资源价值具有重要意义。信息检索系统中,构建索引、生成查询表达式等多个环节都需要用到中文分词技术,提高分词的准确性,不仅可以提高检索系统的查准率,还能降低检索遗漏、提高查全率。另外,针对检索结果,用户往往只关心Top-n的结果,采用合理的排序算法对查询结果进行优化排序,能够有效地改善系统的查询效果与用户体验。因此,本文的主要工作是构建基于核心元数据的科技资源信息检索系统,为用户提供快速、准确、便捷的科技资源检索服务,并着重研究其中的中文分词技术和结果排序技术。具体包括:(1)设计并实现了一种结合词典与统计方法的中文分词算法。海量科技资源核心元数据中包含较多的未登录词,且未登录词造成的分词精度失落比歧义切分造成的精度失落至少大10倍,本文提出了一种结合词典与统计方法的中文分词算法,较好地解决了未登录词识别问题。首先采用基于词条共现频率词典的方法,对文本进行粗切分;然后利用互信息模型对分词碎片做初步处理,识别未登录词;最后,再进一步地利用结合词典与规则的人名识别算法,进行中文人名识别,从而实现准确分词。通过对人民日报语料库和国家语委语料库的封闭测试结果表明,本文设计的中文分词算法整体分词精度约为97%,中文人名识别精度达92%,分词速度为13万字/秒,完全满足项目需要。(2)设计并实现了一种改进的TF-IDF算法。TF-IDF结构简单、适用范围广,但是在具体领域往往存在计算偏差较大的不足。为了提高TF-IDF算法的精度,本文综合考虑多个检索词之间的词序、词距、扩展词权重变化等因素,提出了一种改进的TF-IDF算法。此外,将该算法的使用范围限定在单索引检索中,还避免了多索引检索中文档分布偏斜带来的精度失落。(3)设计并实现了基于TF-IDF的多索引合并排序算法。为了进一步解决本文提出的改进TF-IDF算法不能应用于多索引检索的不足,本文采用了一种加权合并排序算法。首先构建科技资源核心元数据索引的特征词列表,通过计算用户检索词与特征词列表的相似度实现对索引权重的动态调整,改善了多索引的结果合并排序效果。实验结果表明,采用该算法后,系统的查全率达到94.7%,提高了6%以上;系统的整体性能提高2%左右;系统首页获得目的类别资源的比例高达98.6%。最后,本文详细设计并实现了科技资源信息检索系统,向用户提供了导航检索、统一检索和精确检索三种检索方式,基本满足了用户的检索需求。目前,该系统已正式挂载在中国科技资源共享网上,为广大科技工作者提高科技资源检索服务。
相关内容
相关标签