当前位置:问答库>论文摘要

题目:面向网页主体信息的中文词法分析器的设计与实现

关键词:Web信息抽取,中文词法分析,中文分词,词性标注,命名实体识别

  摘要



在信息抽取和其它的自然语言处理任务中,词的识别及处理是一个最为关键的基础性步骤。而其中存在的问题至今仍然没有得到完善的解决,从而影响了信息抽取以及其他自然语言处理任务的精度和效率。中文分词、词性标注和命名实体识别等作为中文词法分析任务的基础性步骤,是影响中文词法分析性能和精度提高的难点所在。

本文结合当前Web信息呈爆炸式增长,使得用户通过信息检索方法并不能快速而有效地获取想要的信息产生的Web信息抽取,而设计并实现了一个面向网页主体信息抽取的中文词法分析器。首先,网页文本通过该词法分析器,得到该网页的主体信息;其次对上一步得到的网页主体信息进行的中文词法分析,得到对应的结果输出;最后,通过对这些结果输出进行性能评测,得到对应的准确率和召回率。其中中文词法分析包括中文分词、词性标注和命名实体识别这三方面,使用准确性高的基于统计的方法实现。此外,由于中文分词是其它部分的基础,通过提高中文分词的性能对于整体性能的提高是关键的问题。根据测试的结果,本文在中文分词的实现中加入了后处理不仅对中文分词,而且包括词性标注与命名实体识别的性能提升都直到了积极的作用。

本论文设计和完成的面向网页主体信息的中文词法分析器有助于更加充分有效地利用Web上的信息资源,并且对这些抽取出的主体信息进行中文词法分析后的结果,对当前仍处于研究阶段的一个完整的中文信息抽取系统来说具有一定的参考价值,也为进一步进行数据挖掘、文本生成等后续信息处理提供服务。