当前位置:问答库>论文摘要

题目:分布式搜索引擎的缓存机制和调度策略研究与实现

关键词:Web缓存,替换策略,分布式,调度策略

  摘要

Internet的迅速普及和发展,使人们面临着一个信息的海洋,快速从中获取真正感兴趣的信息变得至关重要。全文搜索系统(主要指搜索引擎)即是提供这种功能的一种工具。传统的集中式搜索引擎,在可扩展性、容错性等方面存在着较大缺陷,难以适应数据量的飞快增长。因此,分布式结构将是未来搜索引擎的发展方向。同时人们对Internet访问速度的要求也越来越高。虽然服务器软、硬件在不断升级、网络带宽在不断增加,但是用户感受到的系统响应速度却没有相应的增加,甚至还越来越慢,归根结底也是因为数据量在飞速增长。为提高WWW系统的响应速度,采用缓存技术是在不增加成本的前提下,对WWW系统访问加速的一种有效的解决方案。本文目标是在实验室现有的搜索引擎的基础上构建分布式缓存系统,达到解决上述问题的目的。重点在缓存的替换策略和分布式缓存的任务调度策略方面开展了研究。本文对缓存技术中的关键性问题——缓存替换策略进行了分析,在分析传统替换策略优缺点的基础上,设计了缓存优化价值计算函数——基于文档访问频率、大小和访问时间间隔的计算方式。通过与其它替换策略的实验数据的对比,得到结论,在字节命中率和分组命中率要稍好于其它替换策略。本文描述了分布式系统的关键技术的解决方法。系统采用了两阶段哈希映射调度策略使分布式系统进行任务分割,保证了在节点失效或者增加时,原有节点所缓存的内容仍能被重复利用,即在节点发生变化时,其它节点仍能保持原有映射关系不改变。同时保证了任务分配的均衡性;使用消息通信使节点协同工作,最终实现了一个可扩展性的分布式搜索引擎缓存系统。