当前位置:问答库>论文摘要

题目:基于文本分析的公告过滤及分类系统的设计与实现

关键词:公告过滤;网络抓取;文本分析;朴素贝叶斯

  摘要


随着信息技术及互联网的发展,大量的信息以文本的形式发布到互联网上。上市公司的公告是汤森路透产品数据的重要来源,而所有公告的采集、过滤和分类过程均由分析师人工完成,消耗了大量人力物力。

由于目前基于文本分析的分类技术趋近成熟,故本文设计并实现了一套公告采集、过滤分类及分发系统来完成公告从采集到分发的自动化过程,从而优化汤森内容组的工作流程,降低人力资源的损耗。该系统主要包括公告的监控及采集、公告的过滤及分类、公告的分发、错误通知和权限系统等几大模块。本文主要目的是对公告采集过程中的任务调度、网络抓取、公告过滤以及公告分发等重点功能进行设计和实现。

由于本文所实现的系统对时效性和正确性有较高的要求,故在实现系统功能的基础上,本文着重针对系统的时效性和正确性的要求进行了研究与设计。为了保证较高的时效性,本文使用了分布式的抓取方式以及针对网页内容哈希的新公告检测及去重机制,提升抓取效率。针对公告过滤中涉及的高召回率要求,本文设计并实现了改进的贝叶斯分类算法——层叠贝叶斯分类器。经过改进的层叠朴素贝叶斯分类器,是在贝叶斯分类的基础原理上引入了多次贝叶斯分类、阈值以及关键特征加权等方法实现的,其较之使用单纯的贝叶斯分类器,不但能保证公告过滤时较高的召回率,又能使公告的过滤效率得到大幅的提升。

本文所设计的系统在实际的应用中,为汤森路透多个内容组的工作效率带了可观的提升,并节省了大量人力资源。