● 摘要
摘 要
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。语言文字是信息的主要载体,现代社会对语言文字处理的要求越来越高。中文信息处理技术也随着计算机和因特网普及应用,面临着新的更大的挑战和机遇。中文信息信息检索可以帮助人们有效的找到感兴趣的信息,帮助用户发现对自己有用的知识。
作为自然语言理解的一项基础工作,句子相似度计算是目前信息处理技术方面研究的热点和难点问题,它的研究状况,直接影响着智能答疑系统、机器翻译、信息检索等领域。由于汉语本身的复杂性和进化性,相似度的计算仍处在应用起步阶段,鉴于信息处理在国家信息化建设中的重要地位,对相似度计算进行深入的研究是非常必要的。汉语句子处理包括词语的切分、句子相似性算法的研究等方面的内容。句子相似性的识别是在正确分词的基础上实现的,分词的质量决定了相似度计算结果的准确性,是相似度计算的基础。本文从对句子分词技术的研究,逐步深入到句子相似度的研究,并通过实验验证了本文所提出分词算法和句子相似度计算方法的有效性,本文最后以网络学习平台智能答疑系统为媒介,给出句子相似度计算在“问题-答案”库中的应用。
本文的主要工作如下:
⑴本文深入分析了最大匹配法的特点,针对最大匹配法存在的固定最大匹配系数和逐字递减的匹配造成的切分错误和效率上的缺陷,提出基于首字分词长度自适应算法,该算法利用词首字包含的最大词长信息,使最大匹配系数能以词首字的改变而动态改变,使系统自动适应不同字为首的词的分词工作,同时,在减字匹配过程中,而是利用词首字中包含的其它词长信息,不定长的减字匹配,而不是每次都逐字减一再去字典匹配,减少了无效匹配的次数,从而,在一定程度上提高算法的效率。
⑵对基于词形(关键词)的相似度,基于句型的相似度,以及基于语义的相似度等多种相似度计算方法做了详细的对比分析,提出了多因素语义相似度算法,该算法综合考虑了词形(关键词)、语义、句型三个方面因素计算句子相似度,相比于单纯的基于词形的相似度算法,基于语义的相似度算法和基于句型的相似度算法计算更精确。
⑶在词形相似度算法中,针对基于向量空间模型的方法并未将关键词的顺序、词距以及句子长度等有效信息加以充分利用,仅考虑词的词频等表面信息的缺点,本文在词型相似度计算中,兼顾了关键词的词频、词距、词序以及句子长度等信息,使词形(关键词)相似度的计算结果更为准确。在语义相似度算法中模型中,考虑到不同词语在句子中重要程度的不同,引入词语的权重,并通过遗传算法动态调整权重大小。