● 摘要
本论文主要研究的内容是大数据技术在云呼叫中心系统中的应用。随着云呼叫中心坐席数、业务量快速的增长,产生大量的并发访问、大量的大录音文件,每天大约产生3T的数据量,其中90%为录音文件,这些大量的录音文件需要存储、备份、分析、挖掘等工作,业务量、数据量的快速增长,已经超出云呼叫中心的处理能力;大量数据采用专业高端存储设备存储,成本很高,并且不能做数据挖掘与数据分析;作为云呼叫中心企业迫切需要降低成本、提升高并发能力,解决云呼叫中心存在的问题。
大数据是新兴的软件设计思路,与传统软件设计思路完全不同。传统的软件设计思路是基于单机的设计思路,也就是一个完整的事务一定要在单机内完成,因此业务处理能力以及能承受的高并发能力受单机硬件计算能力限制,因此小型机与大型机得到迅速的发展;大数据技术的设计思路则是通过集群化、规模化、分布式计算提升服务端的处理能力、高并发能力、大数据存储能力、大数据挖掘能力等,所以服务端的处理能力、以及能承受的高并发能力受到集群规模的限制,而不是单机的计算能力限制,完全突破了传统的软件设计思路。因此,云呼叫中心采用Hadoop集群、HBase集群实现低成本、高并发、高扩展以及大数据挖掘能力。通过Hadoop集群的HDFS分布式文件系统存储大量录音文件,提升数据存储安全性和可扩展性,为将来录音文件做大数据挖掘提供低层支撑。通过采用HBase和RESTful相结合的架构设计支持高并发能力,HBase集群用于存储云呼叫中心系统的海量数据,支持高速的分布式数据读写;RESTful用于协调处理集群中业务事件,实现高并发的业务目标。通过生产环境监测数据,录音文件上传启用24个进程,分别读取前一天每个小时的录音文件存为SequenceFile文件,每个小时为一个SequenceFile文件,每个进程每个小时的上传录音文件为100GB左右;上传全部录音文件耗时约2小时,吞吐量约为500MB/S。
相关内容
相关标签