● 摘要
互联网信息的爆炸式增长使人们在面对海量信息的同时,也陷入了如何找到最合适、最准确信息的困境中。句子语义相似性和相关性度量模型作为处理文本数据的基础和关键技术,有效的解决了这一问题,已经被应用于数据挖掘、信息检索、自动问答系统、文本分类和机器翻译等研究领域。 由于自然语言本身固有的灵活性,人们在表达具有相似意义的句子时可以使用不同的词和句子结构。因此,句子中共同出现的词是很少的,这就为计算句子间的相似性和相关性提出了一个巨大的挑战。在计算句子语义相似性和相关性时,如果能够充分挖掘和利用句子的语义信息和语法结构信息,将对提高度量的准确性有很大的帮助。本文分别就词间语义相似性计算、句子语义相似性计算、句子相关性计算这三个问题进行研究,提出了合理的解决办法。 提出的词间语义相似性度量模型从人类进行相似性判断的思维过程出发,通过分析词的共同点和差异点来计算相似性。模型在语义网络上实现词的共同点和差异点的量化表示。实验表明提出的词间语义相似性度量模型接近人类的相似性判断,优于现有的度量模型。 对于句子语义相似性计算这一问题,本文分别从两种不同的思路进行分析和处理。基于语料库统计信息的句子语义相似性度量模型充分挖掘和利用句子的语义信息和语法结构信息,并根据词的信息量对相似性加权。信息量来自于语料库统计信息。基于动态时间弯曲距离的句子语义相似性度量模型将句子看成是由词构成的序列,用改进的动态时间弯曲距离衡量由词构成的序列间的相似性。模型还考察了信息量和词的词性在相似性计算中的作用。 本文提出了面向内容的句子相关性度量模型,通过分析描述同一内容的词间的联系,找出句子间的关系。模型将句子中的词根据描述内容的不同进行分类,然后分别计算每一类间的相似性。相关性以两种形式给出:一种是向量的形式,反映了句子相关的内容方面及相关程度;一种是数值的形式,描述句子间总体的相关程度。 本文的实验均建立在标准的数据集或被研究者广泛使用的数据集上。实验从多个角度分析了句子语义相似性和相关性度量模型的性能,结果表明提出的模型能够准确的反映句子间的相似性或相关性,并优于现有的度量模型。
相关内容
相关标签