● 摘要
各种短信无线数据业务的发展,逐渐带动了很多以短信为基础的产业链的形成。目前基于互联网技术的短信业务系统层出不穷,提出了各种信息净化的需求,这正是我们设计和开发了短信过滤平台的宗旨。平台主要的处理手段是通过对所有的短信数据作层层的数据过滤,将各种反动、有害、垃圾信息最终过滤,阻止其顺利流通。在本系统的设计和实现中,我们充分运用了信息过滤分析和字符匹配技术相结合的方法,其中采用的基本算法思想主要有贝叶斯过滤算法和WM多模匹配算法。在贝叶斯算法的指导下,根据项目实际情况作了几点改善,量身定制了一种贝叶斯分类过滤器,通过学习训练模块获取的学习结果数据为依据,分析计算其后验概率并最终判断短信所属的类别;同时,对WM算法作了较大的改进和优化,在此基础上提出了一种基于WM算法的中文信息匹配算法,并在本系统运行环境下,获得了很高的运算效率,该算法科学合理地将中文信息的精确匹配过滤转化成了另一种形式的模糊类匹配,彻底解决了中文汉字的匹配技术难点,同时也是对贝叶斯过滤的补充和检验。在海量实际数据的测试下,本系统设计的算法执行得到了很好的效率验证,系统的稳定性和实效性也充分得到了体现。总之,该短信过滤平台提供了一种很好的技术手段来解决各种短信平台上信息内容良莠不齐的现象,在短信信息处理领域具有较为重要的实际应用意义。
相关内容
相关标签