● 摘要
并行计算机的发展十分迅速,到目前已经发展到了千万亿次的级别,世界TOP500每年都会有新的记录出现。运行在并行计算机上的并行应用往往很难充分利用计算机的性能,因此要对并行应用进行性能监测以提高其性能。然而随着并行计算机性能的提高,其节点的数量和应用系统的规模增大,从而在并行程序进行性能监测时会产生大量的性能数据,传统的直接写文件的方式已渐渐不能满足要求。本文设计实现了大规模并行应用性能数据采集软件为解决大量数据的采集和传输提供了一条行之有效的途径。 论文首先介绍了对于并行程序性能监测领域的研究现状以及相关的技术,分析了对性能数据进行采集的需求,提出了大规模并行应用性能数据采集软件的体系结构、部署结构和管理模型等,并对软件的功能结构进行了设计。从性能数据的获取、数据的传输、系统的控制等方面详细设计了软件的功能结构并在此基础上实现了这些功能。系统采用TCP协议来可靠地传输性能数据,采用UDP协议传输监控信息来实现对采集节点的管理和动态监控。数据的获取及数据的接收都使用了缓存,既能够实时地获取性能数据又能按照既定的要求实时地发送和接收数据,并且尽可能地减少对原程序的影响。最后,论文通过浪潮天梭TS10000机群上进行的实验验证了采集性能数据对原程序的影响程度,并对下一步的研究方向进行了探讨。
相关内容
相关标签