当前位置:问答库>论文摘要

题目:一种基于统计的汉语多义词排歧方法

关键词:自然语言处理,词义消歧,相似度,熵,平均互信息,可信度

  摘要

词义消歧(Word Sense Disambiguation,,WSD)是计算语言学和自然语言处理领域一个重要的研究课题。词义消歧(WSD)是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索、句法分析、语音合成等,该问题解决的好坏将直接关系到这些应用问题的效果优劣。  本文主要是在研究获取支持词义消歧知识的方法基础上,建立了一个面向汉语真实文本中实词的词义消歧系统。论文主要从以下几个方面作了重点研究和创新: 首先,对国内外WSD研究现状进行了介绍,重点说明了本课题研究的对象及目的。论文主要着眼于对汉语真实文本中实词(包括名词、动词和形容词)的词义消歧。 其次,分析了汉语歧义词的特点。结合本课题实现目标,由《IR_Lab分类词典》和《现代汉语辞海》中提供的信息,构建了义项指示词词表,并设计了动态词表、新搭配词词表和筛选词表。 设计并实现汉语多义词WSD系统.。消歧模型主要包括两大模块的实现:自学习模块和排歧模块。自学习模块主要是通过基于词语相似度和基于互信息的方法学习训练语料中的新搭配词语,丰富排歧需要的词语资源。排歧模块的设计为两级结构:义项指示词排歧和可信度排歧。义项指示词排歧的设计是一种基于分类词典的设计,可信度排歧主要是利用多义词窗口词语的约束信息,通过可信度公式计算多义词各个义项的可信度,可信度排歧的设计是基于统计的方法,多义词排歧系统的设计是一种基于分类词典和基于统计相结合的方法,系统具有很好的自学习能力,两种排歧方法的结合分别适应了歧义词所在的“强”和“弱”窗口上下文环境,两级排歧模型的设计使排歧的覆盖面增大。 最后,以北大计算语言研究所提供的1998年1月份《人民日报》和哈尔滨工业大学信息检索实验室提供的标准训练语料作为训练语料,给出及个实例来说明和验证本系统的词义消歧过程。  关键词:自然语言处理,词义消歧,相似度,熵,平均互信息,可信度