当前位置:问答库>论文摘要

题目:基于LSH算法的高维中文文本检索系统的研究和实现

关键词:高维数据;相似性检索;LSH算法;近邻;多重探测;特征选择算法

  摘要

文本检索是文本挖掘技术的重要方向之一。近年来,随着计算机技术和网络技术的快速发展以及数据挖掘技术的成熟,人们对信息检索 效率和适用性的要求也越来越高。目前,对简单、低维的数据检索一般使用倒排表进行索引。但是,对于高维文本数据,尚无行之有效的检索方法。 近几年,高维数据的快速检索问题已经受到越来越多的关注。当数据集很大、向量空间维度很高时,线性检索、R-tree、Kd-tree、SR-tree都不能达到令人满意的检索效率。LSH(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检索问题,因而受到国内外学术界的高度重视。 本文旨在将LSH算法引入高维文本检索领域,利用LSH算法检索高维近邻数据快速、高效的特点,实现一个高维文本的快速检索系统。其基本思想是,首先对文本提取特征,将其转化到向量空间模型下,再使用LSH算法建立检索库,最后根据索引库中预先存在的近邻关系,进行高维文本的快速检索。 本文首先实现二进制向量的LSH算法,然后完成了文本特征选择、IDF计算、文本权重计算、文本相似度计算等功能,并将LSH算法整合到检索系统中。前台程序使用了B/S框架,实现了一个完整的基于LSH算法的高维中文文本检索系统。本文在对LSH算法进行深入分析和研究之后,利用检索模型中存储数据的分布规律,对多个位置进行检索,进而对二进制向量的LSH算法做出了改进。最后,通过详细的实验数据表明:改进后的算法可通过增加多个检索位置,提高检索的召回率,并在不增加时间复杂度的情况下降低了算法的空间复杂度。 本文针对LSH算法处理稀疏数据高效快速的特性,改进了中文检索的特征选择算法。改进后的特征选择算法,可以使文本向量分布更加稀疏,进而提高了LSH算法的召回率。