● 摘要
目前网络新闻成为人们获取信息的重要来源。网络新闻具有数据量大、增长快、时效性强以及动态发展的特性,给用户从海量的新闻中快速发现和了解某一事件的来龙去脉带来困难。因此如何自动准确地组织互联网上的新闻信息、发现话题(种子事件)内在结构与揭示事件发展变化过程已成为当今的研究热点。事件追踪是研究自动跟踪事件动态发展过程的一种信息智能获取技术,也是事件检测与追踪(TDT)技术的一个子任务,其目标是监控新闻报道信息流以发现与某一已知话题有关的新报道。事件追踪系统的研究对象主要分为话题模型与追踪器两部分,本文首先需要对几篇核心事件报道训练话题模型,然后利用追踪器对后续报道进行识别,判断是否相关。本文研究传统文档向量空间模型的不足,结合新闻报道的特征,提出了三维向量文档模型。每篇新闻报道的三维向量文档模型由标题特征词向量、内容特征词向量与实体词向量构成。在此基础上采用类别离散点模型,建立具有新闻特征的话题模型,并且研究和制定该模型随时间的进化策略,使该模型在追踪过程中具有自我学习、不断修正的特点以适应事件发展的自然规律。在分析现有基于文本分类的追踪器算法的基础上,结合本文提出的话题模型,设计了一个自适应的追踪器框架。该框架包括话题模型的自我学习、追踪器算法参数的自动调整和阈值的自适应修正。本文通过把自适应的框架与KNN算法结合,设计实现了自适应KNN追踪器。实验分析表明,自适应KNN追踪器在误报率、漏报率方面比传统的算法具有明显优势。本文结合以上研究,设计实现了面向新闻主题的事件追踪系统,实现相关新闻按时间排序、自动汇总专题报道等功能。该系统不仅能够有效解决话题漂移现象,而且能快速反映话题的变化,对新闻编辑人员能够提供有力支持。事件追踪技术是自然语言处理一个崭新的方向,论文最后总结本文工作,并提出要进一步结合语义研究话题模型。