● 摘要
在我国地震行业专业应用计算建设中,集群是构建专业应用计算平台的基础。为了给集群计算平台的作业调度提供软硬件信息支持,给地震行业专业应用计算系统管理人员进行集群计算资源管理提供全面及时的信息,需要获取集群资源的状态信息、应用计算的作业进程执行信息,以及对这些信息进行存储及管理。如何及时的获取这些信息,如何有效的传输和存储这些信息,已经成为国家地震网络中集群计算的重要问题。在分析了集群与集群监控技术的基础上,结合国家地震网络计算平台的特点,设计并实现了国家地震网络中集群计算的信息监控系统,该系统包括监控信息采集、监控信息传输和信息存储管理,初步解决了上述问题。本文的主要工作和取得的成果如下:采集集群计算中作业的进程信息,提供详细的应用作业运行状态。为了给集群作业调度和专业用户查看应用的作业当前运行状态提供服务,从监控信息中提取出实时信息。鉴于UDP通信特性,在对UDP进行上层可靠性控制封装后,应用于监控系统中实时信息的传输,减少网络资源消耗。对监控信息进行存储,为管理人员提供历史查询。为作业调度有效进行,提供了需要的实时性信息获取的API调用。对集群计算中的各种应用来进行划分,依据应用计算的特性,筛选各种应用类型所需要的必要信息,提高信息访问的效率。论文研究成果已经应用于国家地震网络计算系统中,增强了地震行业专业应用计算能力,提高了集群管理和使用效率,促进了地震应用计算技术的发展。
相关内容
相关标签