当前位置:问答库>论文摘要

题目:面向搜索引擎的多文档摘要自动生成技术的研究与实现

关键词:多文档摘要,语义相似度,特征融合的摘要句抽取,MMR技术

  摘要

随着互联网上信息的日益丰富,同一主题往往存在多篇文档和大量冗余信息。多文档摘要是一种将同一主题下的多个文档提炼为一个简洁摘要的技术,其目的是方便用户快速浏览大量同主题的信息,为用户过滤冗余信息。多文档文摘技术已成为数据挖掘领域的研究热点,并且越来越被重视。本文首先设计了一种基于语义词典(知网和同义词词林)的中文词语语义相似度计算方法。该方法利用词典中丰富的语义信息来计算词语相似度。本文接着设计了一种基于N-gram的句子语义相似度计算方法。该方法利用句中词语的相似信息和顺序信息计算句子相似度。这两个相似度计算方法为语义方面的研究打下基础。本文综合挖掘句子与查询的关联特征以及句子全局关联特征,对其进行重要性分析,提出一种基于特征融合的方法来抽取摘要句。该方法能使摘要既能满足查询的需求,又反映相关文档集的主题。其中句子与查询的关联特征通过TFIDF方法计算;句子全局关联特征通过构建语义图计算。另外本文根据已有的MMR策略,设计了一种基于句子自身特征和句子间相似度的MMR改进策略,进行有效地控制冗余度。针对摘要句排序的问题,本文在基于文档框架排序和类别位置排序的基础上,提出一种结合文档框架和类别位置的排序方法。该方法解决了仅基于文档框架排序时部分句子无法排序的问题。在实验阶段,本文对摘要质量通过信息覆盖率和摘要可读性两个方面进行评测。实验结果表明基于本文提出的摘要句抽取方法和排序方法能使生成摘要质量较好,能够准确覆盖文档集合主题,符合用户阅读习惯。最后,本文利用以上方法和技术设计实现了一个面向搜索引擎的多文档摘要自动生成系统。该系统的特点一是生成的摘要与用户查询高度相关;二是用户能通过摘要快速定位到具体查询结果。该系统在实际项目中取得良好效果。