● 摘要
在大数据流行的当下,对大型数据中心所产生的性能日志进行分析吸引了越来越多研究者的注意。通过研究性能日志,不断提高节点利用率和使用效率、更好的使用多线程计算集群和优化系统资源调度成为了研究者们热议的话题。性能日志的来源不同导致了性能日志的多态性。传统处理性能日志方式是对应于每一种特定的日志形态,实现相应的程序逻辑,从而对该种日志进行解析,然后将解析得到的数据导入关系数据库,最后通过SQL语句进行查询或处理。尽管这种方式能够针对某一特定日志,实现研究的主要需求,但缺点在于:程序可重复使用性低,对于每一种日志都必须对应一套相应的程序逻辑;处理周期长,即用性差;命令行操作不够直观,且需要过分依赖于研究者的学术和专业背景;操作重复性高,以致造成计算资源、I/O资源和网络带宽资源的浪费。经过对流行的日志处理方法的调研,发现不同日志的处理方法具有极大的相似性,这使开发一种通用日志处理平台成为可能。
本文主要的研究内容和成果如下:
1. 异构数据源转化。平台能够接收多种异态的日志格式,将不同来源的数据中心性能日志统一转化成元模型,自动分析和处理。处理方法具有高度的可重复利用性,无需对某一特定日志格式进行特殊编码。
2. 常用处理方法的调研。本文分析、归纳了性能日志所有常用的分析处理流程,总结了其中的规律。合理利用这些成果可以大大缩短处理周期,省去重复开发和测试的过程,研究者只需专注于对处理结果的分析和归纳。
3. 基于Web的平台设计。本文通过提供一个基于Web技术的在线用户图形界面,使研究者无需掌握大量繁琐的命令行,就可以进行各种复杂多样的操作,大大降低了对操作者学术及技术背景的要求。
4. 数据可视化。分析处理结果的可视化使研究变得更加直观、简洁、生动,提高了分析性能日志的效率。
相关内容
相关标签