● 摘要
中国地震局拥有集群资源和行业内的通用并行计算程序资源,这些并行计算程序能够为地震专家的研究工作提供支持。但目前这些计算程序只能由程序的拥有者在固定的集群上使用,而不能被其他专家在其他集群上使用,从而导致了集群资源在一定程度上的闲置和计算程序的利用率较低等问题。为了解决这些问题,需要将程序部署在多个集群上,让用户能够通过任何一个集群完成自己的计算任务,即实现集群计算资源和计算程序资源的共享。因此,需要实现如下三个目标:(1)在多个集群间进行作业调度;(2)方便用户调用部署在各个集群上的应用程序。(3)支持集群的动态加入和动态退出。本文在研究集群技术和P2P技术的基础上,结合中国地震局的集群计算资源和计算程序资源的特点,针对上述三个目标,设计并实现了异构多集群调度管理系统,命名为HMCSS。该系统实现了集群计算资源和计算程序资源的共享,满足了地震科学家的计算需求。本文的主要工作和取得的成果如下: 针对地震局内部存在多个集群并且集群的利用率不均衡的现状,在分析各种调度技术的基础上,设计并实现了异构多集群调度系统HMCSS(Heterogeneous Multiple Cluster Scheduler System)。该多集群调度系统能够实现多个集群的协同工作,以达到集群资源的负载均衡。 针对部署在多个集群上的多个计算资源,通过对元数据的管理和访问,使得用户可以调用部署在不同集群上的应用。 根据集群可能发生的动态变化,在分析了当前调度所考察信息的基础上,对集群的动态加入和退出做出应对。进一步提高系统的鲁棒性和可扩展性。系统已经应用于国家地震网络计算应用系统项目中,实现了地震行业集群资源和计算程序资源的充分共享,达到了为地震专家的研究工作服务的目的。
相关内容
相关标签