● 摘要
随着计算机网络的普及,以及越来越多网络共享社区如Twitter、新浪微博等的出现,网络信息的增长呈现出爆炸式趋势,信息的形式也日益增多。搜索引擎作为向用户提供有效信息搜索功能的服务,具有重要的应用价值。目前,如何高效地对网络中的海量数据进行检索,已成为传统搜索引擎的巨大挑战,同时也引领了机器学习、计算机视觉和信息检索等相关领域的热点前沿技术的研究高潮。
与图像检索、声音检索、图片检索等一样,文本检索(Text Retrieval)也是信息检索的一部分,是根据文本内容,如关键字、语义等对文本集合进行检索、分类、过滤等,不对文献进行任何标引,直接通过计算机以自然语言中的语词进行匹配查找。传统的文本搜索引擎,如Google,Bing和百度,主要以基于关键词的搜索模式为主,基于关键词的检索导致检索模式生硬死板,且忽略了语义这一重要信息。因此,基于语义分析的文本检索技术应运而生。语义分析旨在通过减小“语义鸿沟”、挖掘文本的语义信息,并结合主题模型来实现更高效的文本建模与文本信息检索系统,能有效解决信息丢失的问题。本文提出了一种基于语义层次分析的文本建模与检索方案,取得了良好的检索效果。
本文首先研究了汉语的语义表示方法,选用LDA主题模型,其中包括基于字的主题模型和基于词的主题模型,并验证了两种模型对中文文本建模的有效性。
本文针对中文不同于其他西方语言的特点,挖掘汉语字词之间的映射关系,建立关系模型融入主题模型,建立针对汉语结构更合理更完善的语言模型,有效提升模型性能与文本分类准确率。
本文通过挖掘汉语字和词的结构及语义映射关系对主题模型进行优化,在此基础上,结合N-gram语言模型,通过字与字之间的转移概率,构建基于bigram有序的主题模型,实现更有效的文本建模和分类检索效果。
实验证明,本文提出的基于语义层次的本文检索模型具有较高的准确度和更合理的中文建模结构设计。
相关内容
相关标签