当前位置:问答库>论文摘要

题目:面向分布式应用的故障管理系统研究与实现

关键词:故障管理;故障传播模型;主动探测

  摘要

近年来,随着Internet的快速发展,分布式应用的规模和复杂性出现了爆炸性的增长,服务提供商开发了多种服务,如web服务、VoIP、网络游戏等。这些分布式应用的可靠性和可用性对服务提供商变得越来越重要,而传统的依靠人工方式进行的服务故障诊断陷入了困境,进行高效、准确的智能化网络服务故障诊断变得十分迫切,以便提高故障诊断能力,减少网络故障的平均恢复时间,降低网络的维护保障费用。本文采用了主动探测的方法对分布式应用进行故障管理,并使用了基于故障传播模型的故障定位技术。本文主要研究了多域故障诊断模型,对基于主动探测探针选择算法的改进,并实现了一个故障管理系统原型。论文的主要工作如下:给出了一种多域故障诊断模型,根据被监控网络的物理(网络拓扑)或逻辑因素(服务功能)分成多个域,每个域根据自身的属性可分为服务域和客户域,该模型能准确反映应用服务的部署结构以及不同管理域的检测粒度,能提高故障定位的准确率并且便于系统管理和维护。基于主动探测的故障管理分为两个阶段:故障检测和故障定位,本文提出了在这两个阶段中考虑探针的多个属性,而不是把探针数量作为衡量算法的唯一标准。在故障检测阶段,提出了基于成本效益平衡的检测集选择算法,选出多个备选检测集并进行客观赋权模糊评价,从中选出最合适的检测集。在故障诊断阶段,充分考虑探针对诊断提供的信息熵及探针的探测时间、探测传输开销等因素,提出了考虑检测成本的最小贪婪搜索算法。设计并实现了基于主动探测的故障管理系统原型,该系统分为四层:数据层,控制层、管理层和表示层。数据层负责探针的实例化和运行;控制层根据探针的结果推断应用服务的状态,并负责对探针的选择和调度;管理层负责对多域故障诊断模型和探针信息进行管理,表示层向系统管理员展示了应用服务的运行状况。