● 摘要
互联网数据的飞速增长,传统的利用搜索引擎查询并返回信息列表的方式,已经不能完全满足用户快速、高效定位准确答案的需求。而且,针对特殊人群或普通人在特定的环境下,利用手工输入方式搜索问题也有诸多不便。因此,用户通过简单的语音查询,返回准确答案的问答系统具有深刻的研究意义。
本课题借助Android平台,调用相对成熟的第三方ASR(语音识别)服务和TTS(文本转换)服务,开展对人机自然语言问答系统的设计和实现。在此过程中对语音识别后产生的自然语言文本进行问题分析、信息检索和答案抽取等一系列的处理工作。本质上是一个NLP(自然语言处理)和数据挖掘的过程。
本文重点工作体现在,语音识别后所得文本的NLP。主要涉及到中文分词、词性标注、文本分类、文本特征选择和文本相似度计算等领域。综合应用上述各项技术并进行实验和适应性修改,设计和实现了“基于Android语音识别的人机自然语言问答系统”。完成自然语言处理过程全部在手机端运行,并能对用户问题自动进行分类、知识库检索、简单逻辑推理和答案反馈,最终实现一款手机版的语音问答系统。
此外,本文采用的国家语委发布的2000万字免费语料,用CRFs(条件随机场)和IG(信息增益)算法进行分词和词性标注模型训练。在不失准确率的情况下实现生成模型的大规模剪枝,对控制CRFs训练模型规模和提高模型解码效率的研究具有参考价值。
关键词: 自然语言处理,问答系统,文本分类,文本相似度, 条件随机场
相关内容
相关标签