当前位置:问答库>论文摘要

题目:基于LSI的多文档摘要自动生成技术研究与实现

关键词:多文档摘要;潜在语义标引;聚类;凝聚的层次聚类算法;k-means聚类算法

  摘要

在互连网迅速发展的今天,人们可以从互连网上获取大量有用的信息,然而,很多信息是冗余的,这些冗余的信息会浪费人们很多时间和精力。为了能高效地获取有效信息,多文档摘要技术出现并得到了发展。 国家科技基础条件平台中集成了海量的科技资源,为了有效地利用和挖掘这些科技资源,我们设计了一种基于LSI(潜在语义标引)的多文档摘要自动生成方法。 该方法先对同一事件的多篇文档进行中文切词提取出动词、名词、时间词和数量词作为索引项,完成第一次降维。构造索引词和句子的关系矩阵,然后对矩阵进行奇异值分解(SVD),在完成第二词降维的同时提取出特征。然后计算句子和句子间的相似度矩阵。采取我们设计的一种综合了凝聚层次聚类算法和k-means聚类算法的新聚类算法,利用句子和句子间的相似度矩阵对句子进行聚类。聚类结束后,选取每类中离类中心最近的句子向量作为摘要句。然后,我们设计了一种基于凝聚聚类思想的句子排序算法对摘要句进行排序,生成摘要。最后,对摘要质量进行了评测,评测结果证明文摘质量是可以接受的。 另外,因为目前针对汉语多文档摘要自动生成技术的研究还相当少,本文的研究工作对大量的汉语文档信息的高效搜集和处理具有重要意义。