当前位置:问答库>论文摘要

题目:基于注释的信息检索策略研究与实现

关键词:信息检索;注释;文本聚类;文本分类;文本倾向性

  摘要

随着网络技术的发展,网络上的电子文本信息日益增加,呈指数膨胀的信息资源使得如何准确有效的获取用户所需要的信息成为人们关注的热点,同时也促进了文本处理领域的形成和发展。自动的收集和整理所需要的各类信息成为信息产业面临的新的挑战和发展契机,而信息检索技术是解决这些问题的关键。信息检索技术已经逐步演化为信息检索、信息过滤、文本聚类、文本分类等方向,而且在众多领域内已经得到了广泛的应用。信息检索是现代数字图书馆的核心服务,其目的是使用户能够查找到自己想要的信息。主流的数字图书馆在提供信息检索服务的时候忽视了广大用户对检索过程的潜在影响。通过对文档所添加的注释进行分析,用户可从被动的内容接受者转化为主动的内容提供者。用户提供的内容与文档紧密相关,这就为我们改善用户检索体验的研究提供了不同的视角。本文首先介绍了文本处理中的相关理论技术,包括文档向量表示、文本聚类技术以及文本倾向性分析技术。其次引入了注释,介绍了注释的概念、描述以及特征,并提出了一种基于注释的信息检索框架,其核心思想是对用户添加的注释进行分析,并依据分析的结果对检索结果进行改进。然后,对上述检索框架中应用到的文本聚类技术和文本倾向性分析技术进行了研究和改进。在聚类技术方面,主要是针对K-Means算法,改进了其k值确定以及初始聚类中心的选取;在文本倾向性分析方面,主要是运用了分类技术,改进了特征选择算法,权重计算方法和分类方法。最后,对改进的算法进行对比验证,并将研究成果应用于基于注释的信息检索原型系统中。