当前位置:问答库>论文摘要

题目:基于异常分析的故障检测与告警优化系统研究与实现

关键词:故障检测;故障分析;告警规则生成;故障源挖掘

  摘要


当前大型云服务企业的监控中心通常面临人工设定告警规则不准确以及顶层业务告警数量过多的问题。本论文针对这些问题,提出了一系列有效的解决方案。具体地说,针对基于规则的故障检测系统中由人为配置规则所引发的告警不准确和浪费大量人力的问题,本论文提出了阈值告警规则和波动率告警规则的自动发现方法,主要采用基于监控项的历史监测数据分析和知识发现技术,实现了监控项告警规则的自动配置,很大程度上解决了人工配置监控项存在的问题。并且基于以上方法实现了更加完善的监控项异常判定系统。对于监控系统中顶层业务告警数量过多导致监控工作困难的问题,本论文提出了两种告警信息优化的解决方案,分别是故障源定位和关联监控项告警收敛。对于基于组件的云服务系统,通常将所有组件分为顶层业务组件和底层功能组件。由于功能组件没有监控点部署,导致监控负责人员通常无法得知具体的功能组件故障源,会收到大量由同一个故障源所导致的重复故障告警。本论文提出了一种基于功能组件状态分析和数据挖掘的故障源定位技术,可以有效帮助监控负责人定位故障源,收敛顶层业务告警。另一方面,对于有关联关系的顶层业务监控项,本论文也提出了一种收敛关联监控项故障告警的方法。

在理论研究的基础上,本论文还实现了一套完善的监控系统,包括了故障检测模块和故障告警信息优化模块两个主要部分。能够有效检测异常,生成故障告警,并且收敛重复告警数量。最后通过真实系统的真实监控数据验证了论文中所述告警规则自动发现和告警信息优化方法的有效性。