当前位置:问答库>论文摘要

题目:面向话题的Web新闻文本分类与跟踪研究

关键词:突发事件;话题跟踪;子话题分类;向量空间模型;K最近邻居

  摘要

近年来,随着网络信息化的发展,Web已经成为了发布、传播和收集关于突发事件的信息的重要平台。主流媒体对于突发事件的新闻报道是引导公众关注和舆论的主要途径之一。在突发事件生命周期的各个阶段,对相关Web新闻进行采集、融合、分析和持续监控对加强突发事件信息监控和预警具有重要的意义。本文以突发事件的Web新闻报道为研究对象,运用数据挖掘的方法,研究了如何准确地跟踪Web上关于某一突发事件的新闻报道,并对跟踪的结果进行子话题的分类,从而揭示事件发展变化的过程。在话题跟踪的研究中,本文针对新闻文本的特殊性,改进了传统的向量空间模型,提出了用包含时间、标题和文本内容三个维度的三维向量空间模型来表示一则新闻报道,并在此基础上,给出了基于三维向量空间模型的新闻报道间相似度的计算方法。为了解决话题跟踪中面临的训练样本过少和话题迁移的问题,本文对K最近邻居法进行了改进,使所提出的算法具有自我学习、不断修正的特点以适应事件发展的自然规律。本文定义了子话题的概念,并改进了TF-IDF算法,使特征选择的过程更适合于细粒度的子话题分类。在此基础上,本文给出了基于K最近邻居法的子话题分类算法。实验结果表明,所提出的特征选择和分类算法满足了子话题分类的基本要求。本文结合以上研究,以“甲型H1N1流感”这一突发事件为例,首先分析了该突发事件新闻报道数量在各个时间段内的变化情况。然后,本文使用所提出的子话题分类算法将该事件的新闻报道分为六个子话题,并分析了每一子话题新闻报道的变化趋势。最后,本文从Web新闻报道的角度,分析了突发事件应急管理过程中对于Web新闻的监控需要注意的问题,并设计了一个突发事件Web新闻监控系统。