当前位置:问答库>论文摘要

题目:基于自主计算的分布式应用故障管理关键技术的研究

关键词:分布式应用管理;故障管理;自主计算;故障诊断;贝叶斯网络

  摘要

随着网络的扩展和基于网络的分布式应用技术的发展,分布式应用的故障管理成为研究的热点,由于系统动态性、复杂性的增加,管理强度超出人的管理能力。近年来由IBM公司提出自主计算技术致力于解决这一问题,试图通过“技术管理技术”的思想减少人在系统管理中的负担。其目标是实现系统的自主管理,管理的实现需要自我感知和自我适应两个过程。本文研究分布式应用故障管理的自主管理技术,以实现管理过程中自我感知为目标,借鉴当前的网络管理技术,从故障诊断的角度入手展开分布式应用管理的研究。通过分析分布式系统自主管理存在的问题,指出了基于自主计算的分布式应用故障管理的关键研究问题,根据国内外相关研究的综述分析,总结了目前研究中存在的问题。在此基础上,将本文的研究内容限定在基于自主计算的分布式应用管理体系结构、实现自我感知的故障诊断技术、故障传播模型的获取和推理等方面。本论文工作取得以下成果:提出了一种基于自主计算的分布式应用管理的体系结构。建立了分布式应用自主管理系统的概念模型和分层体系结构,给出了自主管理引擎和监测服务的组织方式。应用自主元素的功能结构保证系统逻辑功能的自主性,应用混合组织模型将分布式应用的管理和监测分开,提供扩展能力。并给出一种应用时间自动机理论验证自主管理过程特性的方法。针对自主管理中的自我感知的实现,提出了一种使用故障诊断技术进行自我感知过程建模的方法。在故障发现过程中,应用主动探针进行故障发现的方法,给出一种主动探针选择的算法;在故障定位过程中,提出了一种混合故障诊断模型,将故障定位的过程分阶段进行,并给出了依据分布式应用结构构造故障传播模型(Fault Propagation Model FPM)的方法。将多层故障传播模型映射到贝叶斯网络上。通过对贝叶斯网络结构学习和推理技术的研究和分析,给出了结合专家知识和数据学习的多层FPM模型的获取方法和相关算法。针对多层FPM模型中推理的问题,在保证准确性的前提下,选择精确推理算法进行故障原因的诊断,并提出了一种基于变量消元方法的改进的精确推理算法。通过原型系统和实验对本文中的给出的方法和算法进行了验证。给出了分布式应用自主管理原型系统ACMS(Autonomic Computing Management System)的设计与实现。以实验用例说明了使用时间自动机网络验证自主管理过程生存性、安全性和实时性的方法。FPM模型获取的实验表明,应用贝叶斯网络结构学习方法进行模型的动态获取具有很好的准确性,是一种实用的方法。验证了基于贝叶斯网络的推理方法可实现故障定位的间接推理,推理的结果具有较好的准确率,提出的新算法具有很好的性能改进。