● 摘要
随着社交型互联网的蓬勃发展,短信、微博、个人状态等短文本数据大量地出现,并对人们的生活产生了重要的影响。短文本数据量异常庞大且涉及范围极广,其内容包含了人们对社会各种现象的各种观点和立场,涉及政治、经济、军事、娱乐、生活等各个领域,因此短文本分类在网络资源管理与发现、信息发现与收集、话题跟踪与发现、流行语分析、舆情预警等领域都极具有应用价值。文本自动分类是人工智能技术和信息检索技术相结合的产物,作为处理和组织海量文本数据的关键技术,可以有效地解决信息杂乱的问题,便于用户准确定位所需的信息和分流信息。与传统互联网网页(长文本)相比,短文本一般为200个字符以内,样本特征非常稀疏,抽取有效的语言特征比较困难;此外,短文本数据实时性较强,因此短文本分类系统分类性能提升比传统文本分类系统更困难。本文针对文本分类领域的关键技术和短文本分类技术的国内外研究现状进行了较为深入的分析,并分析了基于特征选择的文本自动分类算法框架。在此基础上,本文实现了一个基于特征选择的文本分类实验系统。然后,本文在该实验系统上进行了五组文本分类效果对比实验,利用实验结果较为深入地分析了文本特征对文本分类的影响。在上述研究和分析工作基础上,本文提出了一种面向分类的中文短文本扩展方法。该方法通过从长文本语料库中挖掘具有共现关系和类别趋同性的二元组来构建一个扩展背景知识库,然后利用这些二元组对训练文本和测试文本进行扩展,从而丰富短文本信息量。本文选择搜狗新闻数据集作为实验数据。实验结果表明,本文提出的面向分类的中文短文本扩展方法能有效地提高短文本的分类效果。
相关内容
相关标签