当前位置:问答库>论文摘要

题目:基于CRF的中文词法分析的应用研究

关键词:词法分析,歧义识别,CRF,ICTCLAS,基于字典和统计

  摘要



中文词法分析是指就词的构成、变化、分类所进行的分析研究,包括分词和词性标注两个方面。它作为中文自然语言处理的基础,已经被广泛地应用信息检索、文本合成、语音识别、智能搜索、自动摘要及数据挖掘等领域,是中文信息处理技术发展提升的关键因素。

首先,论文介绍了中文词法分析的研究背景与意义,对中文词法分析的国内外研究现状进行了分析,详细讲述了主要的中文词法分析研究方法,并对每种方法的优缺点进行了总结概括,同时从分词规范、歧义识别、未登录词识别等方面总结了中文分词和词性标注的难点。

然后,由图模型引入条件随机场方法(CRF),详细介绍了条件随机场的有关理论基础,并提出使用条件随机场的方法,去构建统一的中文词法分析的框架模型。接着,为了对比CRF在中文词法分析中的性能表现,本文通过引入两个Baseline系统来设计对比实验:一个是基于字典和统计的中文词法分析系统,一个是中科院计算机研究所所开发的汉语词法分析系统ICTCLAS。其中,基于字典和统计的词法分析系统给出了算法求解实例,而CRF的词法分析系统则是借助开源工具CRF++实现。

最后,本文对上述三个系统做了综合评价。对比实验结果表明:本文提出的利用CRF做中文词法分析一体化是可行的。