● 摘要
中文分词是中文自然语言处理领域中的一项基本技术,由于汉语的特殊性,大多数中文自然语言处理任务都需建立在中文分词的基础之上,因而中文分词的准确程度将直接影响到一系列的后续处理。另外,随着基础理论的不断成熟,中文分词在商业领域中也得到了广泛的应用,尤其是在中文搜索引擎中,它能够较大幅度地提升搜索引擎的搜索性能。基于字标注的分词方法是一种精确率较高的中文分词方法,尤其是未登录词识别率,它能较好地适应新词不断涌现的互联网环境。本文通过对基于字标注的分词方法的深入研究,并结合背景项目需求,实现了基于字标注的中文分词系统。本文的主要工作包括以下几个方面:第一,详细介绍了基于字标注的分词方法,分析了常用的特征模板、词位标注集和统计模型;第二,采用面向对象思想,遵守高内聚、低耦合原则,设计并实现了基于字标注的中文分词系统,使系统具有良好的可扩展性和可移植性;第三,针对特征文本表达方式的特性,采用了双数组检索树存储方案,显著提高了中文分词系统的切分性能;第四,针对模型存储文件具有稀疏性,提出了一种位图压缩存储方案,在保证访问速度的前提下,有效地降低了内存占用空间;第五,使用实际语料库训练,验证了系统的可行性及以上两个优化方案的有效性。