● 摘要
随着Internet的高速发展,网上的信息急剧增长。如何快速地在海量信息中搜寻到所需要的信息、获取有用的主旨,已成为一个亟待解决的问题。文摘作为文献内容的缩影,其简洁性、准确性和清晰性使其成为表达和浓缩有用信息和知识的有效载体。传统的手工编制的文摘,生产效率极低,远远不能满足当前海量信息处理和检索的需要。而利用计算机和人工智能技术实现的自动文摘技术,能够在海量信息中快速获取和挖掘其中的有用信息,已成为一种当前信息处理和检索的有效方式和手段。本文首先分析了国内外自动文摘系统的研究现状,并指出了自动文摘系统研究的某些不足。然后,对目前主要的自动文摘模型和方法(基于统计的、基于理解的、基于信息抽取的和基于结构的自动文摘等)进行了分析和比较,对它们的优缺点进行了讨论。在此基础上,将基于统计、语义和结构的文摘方法相结合,设计并实现了一种基于LexRank算法的改进的自动文摘系统。基于LexRank算法的自动文摘方法是一种基于结构的自动文摘方法,通过句子之间的相似度构建句子的关联网络结构。该方法主要利用了文本中句子的拓扑结构,而没有充分利用句子的内容等信息。针对该方法的不足,本文从句子相似度计算方法、句子权重计算方法以及冗余处理等方面对它进行了改进,并根据输入文本内容动态地调整相关影响因子。最后,基于LexRank算法,本文实现了一个自动文摘系统,可以对中文和英文的单文本或多文本进行自动摘要。通过在哈工大和DUC的测评语料上对文摘进行自动测评,结果表明该系统在一定程度上改进了文摘的质量,在多文本文摘中的抗噪声方面也有一定的优越性。
相关内容
相关标签