当前位置:问答库>论文摘要

题目:分布式索引技术的研究与实现

关键词:全文检索;倒排索引;分布式索引

  摘要

随着互联网的发展,全文检索已经成为人们定位和获取信息的重要手段,通过Google、百度等互联网搜索引擎,人们可以方便的从浩如烟海的互联网信息中寻找自己需要的信息。索引作为信息检索系统的重要组成部分,能够为快速有效的信息检索提供支持。然而随着信息量的不断增长,传统的索引方法已经不能满足海量信息环境下搜索引擎索引信息的需求。为了实现高效的索引,如何利用分布式存储与计算技术提高索引算法的时间和空间效率已成为一个新的研究热点。本文对现有基于Map/Reduce 分布式索引方案进行了研究和分析,针对这些算法存在的内存问题和I/O 效率问题,提出了一种改进的基于Map/Reduce 分布式索引方案。算法利用Map/Reduce 框架的二次排序(second sort)功能对倒排列表进行排序,省略倒排列表输出过程前缓存排序的步骤,减少了潜在的内存溢出问题。同时采用更为紧凑的倒排列表表示方式来提高Map/Reduce 计算过程的数据传输效率。并通过实验对其时间和空间上的有效性进行了验证。此外,本文对分布式搜索环境下索引数据分片和增量更新问题进行了研究。在分析已有分布式搜索系统中索引构建和维护方案的基础上,提出了一种新的基于非结构化数据库的倒排索引构建方法。该方法利用BigTable 可扩展的数据存储模型来表示全文倒排索引中倒排列表的结构。把倒排索引数据存放于非结构化数据库之上,以此实现索引数据的分布式查询和增量维护。最后通过实验分析验证了方案的有效性。本文还针对国家科技基础条件平台项目的需要,结合本文前面提出的分布式索引算法,设计并实现了面向科技类主题信息的垂直搜索系统。该系统实现了科技类网页信息的抓取的快速索引功能,能够为平台门户的科技资源检索提供高效的信息检索服务。在论文的最后对全文内容进行了总结,并提出了值得进一步研究的若干问题。