● 摘要
随着微博的快速发展,微博网站已经成为了海量信息的源头。但是由于微博的开放性、信息复杂性,垃圾微博逐渐成为一个影响微博用户体验的大问题。
本文提出了通过朴素贝叶斯分类算法来实现微博过滤器。综合考虑广告、新闻等垃圾微博的特点发掘不同特征值。采用大量数据分析和人工标记获取语料特征;训练特征模型对语料进行预测的方法获取微博语料特征的概率;利用特征来计算微博的后验概率等方法提高了微博过滤准确率。此外,本文还对微博的获取进行了研究,实现了绕过微博登陆获取微博、实时获取微博。最后,通过功能测试、性能测试表明,微博过滤系统可以准确进行微博过滤功能,达到了系统设计要求。
微博过滤器已经成功面向软件开发人员和产品设计人员推广使用,通过微博过滤器,数据的准确性得到了提升,同时为使用人员节省了大量时间,对降低企业运营成本有一定的积极作用。随着微博的快速发展,微博网站已经成为了海量信息的源头。但是由于微博的开放性、信息复杂性,垃圾微博逐渐成为一个影响微博用户体验的大问题。
本文提出了通过朴素贝叶斯分类算法来实现微博过滤器。综合考虑广告、新闻等垃圾微博的特点发掘不同特征值。采用大量数据分析和人工标记获取语料特征;训练特征模型对语料进行预测的方法获取微博语料特征的概率;利用特征来计算微博的后验概率等方法提高了微博过滤准确率。此外,本文还对微博的获取进行了研究,实现了绕过微博登陆获取微博、实时获取微博。最后,通过功能测试、性能测试表明,微博过滤系统可以准确进行微博过滤功能,达到了系统设计要求。
微博过滤器已经成功面向软件开发人员和产品设计人员推广使用,通过微博过滤器,数据的准确性得到了提升,同时为使用人员节省了大量时间,对降低企业运营成本有一定的积极作用。
相关内容
相关标签