● 摘要
随着云计算的发展,越来越多的公有云服务提供商出现,公有云可以帮助企业削减成本但是可靠性并不是很好。近年来的宕机事件时有发生。因此,企业级产品在公有云平台运行,保障其可靠性是一个亟待解决的问题。
针对公有云提供商亚马逊提供的虚拟机、网络和储存服务稳定性问题,开展云平台灾难模拟技术研究与设计,为企业在云平台上运行自己创建的服务时,提供一个验证程序可靠性和鲁棒性的平台。通过对亚马逊提供的基础设施服务当中的虚拟机、网络和存储服务的研究,结合混合云管理平台Scalr的简单操作、多个云平台同时管理、根据服务的角色分类管理的特点,利用Python Web服务框架web.py技术以及Rest风格的架构设计了一套可以运行灾难模拟脚本的平台,更加方便的进行灾难模拟脚本的执行和调度,提高了验证系统稳定性的效率和减少了企业在公有云平台上服务的风险。本文论述了灾难模拟系统中的三大模块的详细设计和实现,包括WEB服务、调度器、灾难执行Worker。通过测试灾难的调度执行情况,验证了系统功能的可用性和设计的初衷。本平台部署在公司内部服务器上并运行良好,初步为公司语音服务S-voice程序的稳定性测试起到很好的验证作用。