● 摘要
在大数据到来的时代,电信运营商都在积极利用大数据技术去解决在实际经营活动中所面临的时代带来的海量数据处理问题。Hadoop是一个先进的分布式基础框架,其产生的目的就是为了能够简捷、有效、快速地处理现代社会产生的海量数据,并从中获取对社会发展有益的潜在价值。本系统基于Hadoop完成了对电信企业中海量话单数据的处理,主要解决及改善以下5个方面的问题,分别为:话单数据同步、数据排重、数据清洗、近实时查询话单数据、挖掘用户行为特征。
总结分析话单数据各属性之间的关系,结合Hadoop的自身特点,本系统提出的解决与改善问题的方法具体为:以话单采集时间为判断数据更新标准的数据同步方法;以HBase排重表为根据,以关键值数据的MD5值和SHA1值为依据的数据排重方法;以Kettle为基础的数据清洗方法;以HBase为基础架构的近实时查询话单方法;以用户历史话单数据为对象,以Apriori算法和Hive、HBase为工具的挖掘用户行为特征方法。
本系统以B/S(Browser/Server)架构实现,运用Java语言设计程序,结合Hadoop技术实现了系统的特色业务功能。在本论文中,对系统的需求做了详细分析,对开发本系统所用到的关键技术做了阐述,并且在相应的章节中对系统总体设计、各功能模块设计做了详细的论述,在最后,还给出了系统各功能模块相应的测试方法。该系统不仅满足了运营商对处理海量话单数据的需求,而且还大大降低了处理海量数据的资源成本。