● 摘要
随着因特网和信息产业的快速发展,大量信息以电子文档的形式出现在人们面前。这些文档中存在大量人名、地名、组织名等命名实体,它们是信息的主要载体,要对文本作深层次处理,就要首先能正确识别这些命名实体。命名实体识别作为理解和处理文本的基础,是信息抽取、机器翻译、问答系统等多个领域的关键技术之一,已成为自然语言处理中的研究热点。本文在总结现有命名实体识别研究方法的基础上,研究实现了基于统计模型的中文命名实体识别,并实现其在未登录词识别和文本聚类中的应用。本文主要工作成果包括:1、研究与实现基于条件随机场的中文命名实体识别系统。利用条件随机场实现中文命名实体识别时有三个关键点:特征函数设计,参数估计和序列标注。本文针对模型特点设计特征函数,在通用的内部特征中集成特征窗口和外部词典特征,充分利用了训练数据中的已有知识和文本中的上下文信息;然后采用L-BFGS和Viterbi算法实现了参数估计和序列标注。2、研究与实现两个粒度下的中文命名实体识别。针对常用的中文实体识别系统(词一级粒度)识别结果受分词系统影响的问题,本文在实现词一级模型后还研究了字一级粒度下的中文命名实体识别,本文修改现有的特征函数使其适应字一级模型,引入两种标注体系,然后对比分析了两个粒度模型各自的优缺点;针对字一级模型的边界问题提出一种新的特征函数——词位置特征,提高了模型的性能。3、研究基于实体识别的未登录词识别和文本聚类,并结合课题来源,实现应用系统。a)本文通过实验选择词一级模型来实现未登录词识别,并研究了模型随命名实体长度的性能变化趋势,最后实现的系统能根据用户对词频、词语长度限制等要求从文本中自动提取出未登录命名实体扩充到词库中。b)本文利用命名实体更能体现文档主题的特点,将命名实体添加到文档表示的特征空间中,然后通过实验设定命名实体在特征中应占的比例,提高了文本聚类的性能,并基于此成果实现搜索引擎结果聚类系统。本文最后对全文工作和成果进行了总结,对未来的工作提出了一些展望,并指出在复合特征的设计和命名实体识别的应用需进一步开展工作。