● 摘要
中国地震局拥有集群资源和行业内的通用并行计算程序资源,这些并行计算程序能够为地震专家的研究工作提供支持。但目前这些计算程序只能由程序的拥有者在固定集群上使用,而不能被其他专家在其他集群上使用,从而导致了集群资源在一定程度上的闲置和计算程序的利用率较低等问题。为了解决这些问题,需要将程序部署在多个集群上,让用户能够通过任何一个集群完成自己的计算任务,即实现集群资源和计算程序资源的共享。因此,需要实现如下三个目标:(1)在多个集群间进行作业调度;(2)方便用户调用部署在集群上的应用程序;(3)对并行程序的运行过程和集群资源进行管理。本文在研究集群技术和网格调度技术的基础上,结合中国地震局的集群资源和计算程序资源的特点,针对上述三个目标,设计并实现了多集群参数化并行计算管理系统,命名为Guava。该系统实现了集群资源和计算程序资源的共享,满足了地震科学家的计算需求。本文的主要工作和取得的成果如下: 针对地震局内部存在多个集群并且各个集群的利用率不均衡的现状,在分析网格调度技术的基础上,设计并实现了多集群调度系统NEQMCS(National Earthquake Multi-cluster Scheduler)。该多集群调度系统能够实现多个集群的协同工作,达到集群资源的负载均衡。 根据对地震行业并行程序调用方式的分析,采用xml schema对这些程序的调用方式进行了统一描述,形成了应用统一描述schema,并结合GGF发布的作业统一描述语言JSDL (Job Submit Description Language),设计并实现了参数化引擎,该引擎能够完成从用户提交的作业到应用可执行脚本的自动转换,用户无需知道每个应用程序的调用细节。 根据本项目中计算程序全部为并行程序的特点,在分析现有集群管理系统和集群调度技术的基础上,采用MPICH2作为并行计算库,MAUI作为集群调度器,设计并实现了针对并行计算的集群并行计算管理系统。Guava系统已经应用于国家地震网络计算应用系统项目中,实现了地震行业集群资源和计算程序资源的充分共享,达到了为地震专家的研究工作服务的目的。关键词:集群,并行计算,参数化引擎,集群管理系统,多集群调度
相关内容
相关标签