当前位置:问答库>论文摘要

题目:基于Hadoop的垃圾短信拦截系统的设计与实现

关键词:垃圾短信,贝叶斯分类,Hadoop

  摘要



垃圾短信泛滥是困扰人们和运营商的重要问题。传统的短信过滤技术主要集中在黑白名单过滤、关键字过滤层面,面临垃圾短信数据量的不断增长和内容的不断更新,这些传统的过滤技术在效果上已经无法满足运营商的需求。

为了提高短信的过滤效果,本文设计了一套基于Hadoop的垃圾短信拦截系统。该系统最主要的部分是短信分词和分类模型训练,分词的准确程度直接影响分类模型的性能,为了提高分词准确率,本文利用动态规划思想先对短信进行粗切分,然后利用隐马尔科夫模型对粗分结果进一步细分,这样既可以保证分词的速度又可以提高分词精度。贝叶斯模型是机器学习模型中的一种,该模型以统计方法为基础,具有分类效率稳定、误差率小、对缺失数据不敏感等优点,所以本文采用贝叶斯分类模型作为短信过滤的主要方法。训练分类模型面临的困难是未标记短信数据量远大于标记短信数据量,所以本文采用半监督的方式对模型进行训练,即通过关键字在已标记短信集中的类别概率估算其在整个短信集上的类别概率来完成贝叶斯模型的训练。中文分词和训练模型都面临海量数据的挑战,所以本文采用基于Hadoop的MapReduce并行计算框架实现以上算法,通过分治的算法思想完成大规模短信数据的处理。最后本文将贝叶斯分类模型和已有的客户端短信拦截策略相结合,达到了提高短信过滤效果的目的。

本文首先选取了真实、大规模短信数据对系统进行短信过滤效果测试,测试结果显示系统垃圾短信拦截的召回率达到88.3%,准确率达到85.5%。然后本文对系统进行了性能测试,测试结果显示系统处理数据的速度比传统解决方案快10倍以上。最后本文对系统进行扩展性测试,测试结果显示系统随着节点数的增加具有接近线性增加的加速比。