● 摘要
随着社交网络、微博等新媒体的兴起,互联网中出现了越来越多语言简洁的短文
本。与传统网页文本数据(长文本)相比,短文本的长度远小于普通文本,在新浪微
博中,短文本是指不超过140 个汉字或英文字符的文本。这些短文本以多种形式存在
于互联网中,如新闻标题,微博,问题和答案等,并且包含了丰富多样的信息,如人
们对某些事物或事件的看法或反馈,电子商务中消费者的兴趣爱好等等。同时短文本
的主题分布非常广泛,生活、军事、经济、教育等领域都存在着大量的短文本数据。
当前的热门究领域如如舆情监测、兴趣推荐、自动问答中都需使用到短文本分类,
与此同时,管理网络中出现的大量短文本信息数据也使得对它们的分类势在必行。与
长文本相比,短文本有如下特点:文本长度短、表达内容丰富、词语组合灵活随意、
主题词语少、不规范用语和噪音较多、特征样本稀疏、实时性较强。这些特点导致传
统的文本分类方法对短文本类的效果不佳,所以需要研究一套适合短文本分类的理论
方法。
本文分析了短文本和文本分类的自身特点,对文本表示,特征选择及特征权重计
算等文本索引关键技术进行了阐述,着重介绍了基于特征扩展和特征空间变化的短文
本分类技术,从特征扩展和特征空间变化的角度分析了影响短文本分类效果的因素。
本文将受限玻尔兹曼机作为特征空间变化方法应用于短文本分类中,这一方法将一个
维度高,信息密度低的特征空间转变为一个维度较低,信息密度较高的特征空间。并
且针对使用短文本作为模型输入的受限玻尔兹曼机在权重更新的过程受偏置权重影响
过大的问题,通过基于长文本的特征扩展降低偏置权重对模型的影响,从而获得更好
的特征空间转化效果。最后给出了一种基于长文本特征扩展和受限玻尔兹曼机特征空
间变化的短文本分类方法,这一方法在分类模型训练过程中使用了Adaboost 技术,将
多个弱文本分类器组成一个强文本分类器,以提高短文本分类效果。
本文在Reuters-21578 和搜狗语料集上进行了一系列对比实验,实验结果表明,本
文给出的基于长文本特征扩展与受限玻尔兹曼机特征空间变化的短文本分类方法能够
提高短文本的分类精度。
本论文的研究课题主要来源于国家自然科学基金项目以及国际科技合作计划。