● 摘要
由于Web新闻具有数量大、增长快、主题相关、时效性强、动态演化等特性,人们在获取Web信息时,面临着很多的问题:(1)传统的基于关键字检索的搜索引擎需要用户准确地把自己的查询需求反映到查询表达式上,查询表达式的准确性对查询结果有着决定性的作用。可是用户通常有一种更基本的检索需求,即对新闻信息的浏览获取,例如“上个月什么事件最热门”等,在这类用户无法精确描述自己需求的信息检索任务中,传统的搜索引擎显得力不从心。(2)同一主题新闻网页的信息大同小异,迫切需要一个帮助人们快速浏览信息的工具,该工具不仅能够提供直接的新闻文档,而且可以对其进行加工整理,包含这些新闻文档的重要、全面的信息。这样会大大提高人们获取信息的效率,同时会使越来越多的人利用互联网来获取信息。(3)不同用户对新闻的需求是不同的,用户希望能方便快捷地了解自己感兴趣的新闻主题,理想的方法是自动追踪特定新闻并将结果推送给用户。然而目前多数网站对这些信息仍然采用人工的手段进行整理,耗时耗力,且效率也不尽人意。为了解决以上三个问题,本文深入研究了Web新闻主题发现、展示及追踪技术。Web新闻主题发现、展示及追踪技术将海量新闻信息按照主题进行组织,并以摘要的方式展现给用户,同时帮助用户及时追踪特定新闻主题,获取感兴趣的新闻信息。Web新闻主题发现、展示及追踪技术是Web信息检索的关键技术之一,是一种能够对Web新闻自动管理的技术,代表了Web信息检索技术发展的一个最新方向,具有重大的研究意义。本文以Web新闻为研究目标,分析了Web新闻主题发现、展示及追踪的一些关键性的问题,深入探讨了其中的关键技术,提出并设计实现了相应的解决方法,实验证明我们的结果要比当前经典的解决方法还要好。本文的主要贡献如下:(1)提出了一种基于后缀树聚类的Web新闻主题发现方法DISTC。现有的解决方法一般是基于凝聚聚类、单遍聚类、增量K均值聚类,这些方法一般都存在着时间效率差、聚类效果差等特点。针对现有解决方法无法适应Web新闻主题发现的缺点,本文提出了一种基于后缀树聚类的Web新闻主题发现方法DISTC。该方法包括构建方法和聚类方法,其中构建方法快速地构建后缀树,而聚类方法实现聚类并展示类标签。该方法用到了4个策略:1)停靠节点的策略;2)基类权重的计算策略;3)基类的合并策略;4)类标签的展示策略。DISTC方法更加适合Web新闻主题发现。实验结果证明,无论是在时间效率还是在聚类效果上,该算法都明显优于经典的方法。(2)提出了一种上下文敏感的基于词频统计的Web新闻主题展示方法SWF。现有的解决方法存在着运算复杂、时间效率差和句子优化选择复杂的缺点,针对现有解决方法无法适应Web新闻主题展示的缺点,本文提出了一种上下文敏感的基于词频统计的Web新闻主题展示方法SWF。该方法具有两个特点:1)基于Zipf法则,考虑高频词的重要作用,是一种词频统计的方法;2)最大限度地减小摘要内容的冗余,是一种上下文敏感的方法。此外,该方法还采取了一些语句抽取策略来最大限度地提高摘要的质量。实验结果证明根据该方法抽取的机器摘要获得了很高的ROUGE成绩。(3)提出了一种基于文本相似度的Web新闻主题展示评测方法SETS。针对目前多文档摘要自动评测方法存在的运行速度慢、缺乏评测依据等缺点,本文提出了一种基于文本相似度的Web新闻主题展示评测方法SETS。该方法利用专家摘要作为评测依据,主要是利用机器摘要与专家摘要的文本余弦相似度来得到机器摘要的评测结果。该方法可以获得很高的Spearman等级相关系数和Pearson相关系数。(4)提出了一种动态自适应的Web新闻主题追踪方法DAT。现有的主题追踪方法一般是基于传统的信息检索技术,没有考虑Web新闻的特点,还存在着运算量大、运算复杂等缺点。针对这些缺点,本文提出了一种动态自适应的Web新闻主题追踪方法DAT。该方法基于改进的KNN分类法,主要采用了3个策略:1)动态的DF特征选择;2)自适应的词权重设置;3)文档时间相关系数;使之更适合新闻主题跟踪。最后在TDT2标准测试集进行测试,测试结果表明DAT方法取得了较好的实验效果。(5)设计了一个Web新闻主题发现、展示及追踪原型系统。首先在Web新闻主题发现、展示及追踪系统功能概述的基础上,本文提出系统的设计思路和总体架构,然后依次介绍了模块的划分和设计,并展示了实现过程和页面设计。该系统具有良好的新闻主题发现、展示以及追踪能力。
相关内容
相关标签