当前位置:问答库>论文摘要

题目:多集群作业性能监测分析中关键技术的研究与实现

关键词:可重组;多集群;Chord;并行作业;插桩;扰动;性能监测;性能分析

  摘要

集群作为一种具有高性能、低成本等特点的计算机体系结构,越来越多地在各类高性能并行计算领域得到应用;同时,为了充分利用集群的计算能力,提高并行作业的执行效率,并行作业性能监测分析方面的研究也得到了广泛的关注和重视。在一些特殊应用需求中,需要构建具有可重组特性的多集群计算环境来提供更强、更灵活的计算能力,该环境由多个集群组成,各集群有独立管理域并可单独工作,集群之间处于对等地位。由于传统并行作业性能监测分析工具基本都是为集中式控制的单集群而设计,无法直接在上述计算环境中运行,为了使多集群并行作业性能监测分析工作能够顺利开展,本课题对多集群并行作业性能监测分析中的关键技术进行了深入研究。基于Chord协议实现了多集群的可重组特性,采用扩充指取表容量、增加作业索引表和修改资源定位算法的方式,加速资源查找过程,实现并行作业性能数据的准确定位。实验分析表明,上述研究工作能够较好地达到预期目标。在多集群并行作业性能监测分析过程中,对各阶段可能产生的一些扰动问题和影响性能的因素进行分析,设计出有效的解决方案:选取合适的插桩时机,避免插桩阶段可能引起的对并行作业执行的扰动;采用高效的进程间通信手段来保证性能数据采集的效率;设计两级实体化视图机制,降低分析阶段的网络流量,提高分析效率。最后,结合上述主要研究成果,设计并实现了多集群并行作业性能监测分析工具中的主要子系统,该工具采用分布式软件架构设计,子系统之间采用消息通信,具有高内聚、低耦合的特点,能够有效地运行于可重组多集群计算环境。