当前位置：问答库＞论文摘要

题目：基于LSH算法的高维中文文本检索系统的研究和实现

关键词：高维数据;相似性检索;LSH算法;近邻;多重探测;特征选择算法

● 摘要

文本检索是文本挖掘技术的重要方向之一。近年来，随着计算机技术和网络技术的快速发展以及数据挖掘技术的成熟，人们对信息检索效率和适用性的要求也越来越高。目前，对简单、低维的数据检索一般使用倒排表进行索引。但是，对于高维文本数据，尚无行之有效的检索方法。近几年，高维数据的快速检索问题已经受到越来越多的关注。当数据集很大、向量空间维度很高时，线性检索、R-tree、Kd-tree、SR-tree都不能达到令人满意的检索效率。LSH（Locality Sensitive Hashing，缩写为LSH）算法成功地解决了高维近邻数据的快速检索问题，因而受到国内外学术界的高度重视。本文旨在将LSH算法引入高维文本检索领域，利用LSH算法检索高维近邻数据快速、高效的特点，实现一个高维文本的快速检索系统。其基本思想是，首先对文本提取特征，将其转化到向量空间模型下，再使用LSH算法建立检索库，最后根据索引库中预先存在的近邻关系，进行高维文本的快速检索。本文首先实现二进制向量的LSH算法，然后完成了文本特征选择、IDF计算、文本权重计算、文本相似度计算等功能，并将LSH算法整合到检索系统中。前台程序使用了B/S框架，实现了一个完整的基于LSH算法的高维中文文本检索系统。本文在对LSH算法进行深入分析和研究之后，利用检索模型中存储数据的分布规律，对多个位置进行检索，进而对二进制向量的LSH算法做出了改进。最后，通过详细的实验数据表明：改进后的算法可通过增加多个检索位置，提高检索的召回率，并在不增加时间复杂度的情况下降低了算法的空间复杂度。本文针对LSH算法处理稀疏数据高效快速的特性，改进了中文检索的特征选择算法。改进后的特征选择算法，可以使文本向量分布更加稀疏，进而提高了LSH算法的召回率。

当前位置：问答库＞论文摘要

题目：基于LSH算法的高维中文文本检索系统的研究和实现

相关题目: