● 摘要
随着互联网的快速发展,网络上的信息量正在呈爆炸式的增长,学术搜索引擎的出现为科研工作者检索学术信息带来了便利。但是通过对互联网上一些常用的学术搜索引擎进行调研后发现当前的学术搜索引擎存在诸多不足,针对这些不足,如何改变这样的现状成为了大家关注的热点。 本文重点研究了学术信息检索中的几个关键技术:引文元数据的自动抽取、文献检索结果的展示方式、用户兴趣建模以及文献检索结果的个性化排序。 构建完善的学术文献库是为用户提供良好的学术信息检索服务的基础,其中涉及到文献的引文元数据抽取的问题,因此本文首先对这部分内容进行了研究。首先研究和分析了现有的引文元数据自动抽取方法,然后给出了一种基于隐马尔可夫模型的引文元数据自动抽取的方法。该方法采用非标记文本来构建模型,节省了人工标记训练数据的成本。实验结果表明该方法具有良好的信息抽取准确率和召回率。 通过对用户信息检索认知模式的研究发现,要让用户明确描述检索需求是一件比较困难的事,因此信息检索系统应该把研究重点放在检索结果展示上。本文首先研究和分析了现有的文献检索结果展示存在的不足,然后针对这些不足给出了一种基于文献引文网络的可视化文献检索结果展示方法。通过构建可视化的文献引文网络,并辅之以丰富的用户交互操作,使得用户能够更便捷的浏览文献信息,从而提高文献检索的效率。 为了实现个性化的信息检索,从而提高信息检索的准确率,本文研究和分析了个性化信息检索中的两个关键技术:用户兴趣建模和个性化文献检索结果排序。通过研究现有的用户兴趣建模的方法,构建了一个适用于个性化文献检索结果排序的用户兴趣模型。在该模型的基础上,设计了一个个性化的文献检索结果排序方法。该方法针对目前很多个性化检索结果排序方法存在的“冷启动”问题,通过追踪用户的文献下载行为实时更新用户的兴趣模型,并根据该模型调整文献检索结果的排序。从实验结果看,该方法取得了良好的效果。 在上述研究工作的基础上设计和实现了一个面向软件工程知识领域的学术信息检索系统,通过该系统对上述研究工作进行支持。本文最后即对该系统的总体设计以及主要功能模块进行了介绍,并将其与其他的学术信息检索系统进行了对比,从中可以看出该系统在诸多方面的优势。
相关内容
相关标签