● 摘要
核方法是目前模式分析领域的一种重要方法,尤其是在结构化数据表示方面的优势使得核方法在文本挖掘领域引起人们的广泛关注。文本挖掘具有同一般数据挖掘任务所不同的特点,主要体现在文本的结构化特征,文本数据的高维分布和文本的标注瓶颈等,这些都是对现有数据挖掘方法的一个挑战。本文针对核方法应用于文本挖掘中需要解决的几个问题进行了研究。主要工作有以下五个方面:1.建立了基于核方法文本挖掘的框架。在总结当前核方法在文本挖掘各个阶段中应用的基础上,建立了文本挖掘的核方法统一框架。框架集成了文本表示、特征提取和模式分析的核方法模块,利用核嵌入技术在核空间中解决各种文本挖掘问题。该框架不但为利用核方法进行文本挖掘提供了方便的工具,而且能够为进一步的研究奠定基础。2.提出了一种考虑文本结构和语法信息的文本核构造方法。利用上下文树模型进行文本建模,通过上下文树核方法构造文本核函数。同时,采用词聚类方法将文本中的词语映射到隐含主题空间中,解决了文本建模中的统计数据稀疏性问题。文本聚类实验的结果表明,这种上下文树核是一种更合理的文本主题相似性度量方法,提高了文本聚类的精度。3.针对文本分类中各类数据样本数量上分布不平衡的问题,采用核边界调整技术进行核矩阵调整。该方法通过修改学习的核矩阵达到调整分类边界的目的,消除了数据分布不平衡对分类平面的影响。在不平衡文本测试集上的文本分类实验表明,该方法能够有效地减少数据不平衡的影响,取得了较好的分类效果。4.针对训练和测试样本分布不一致的问题,提出了一种局部核直推向量机分类方法。该方法采用直推支持向量机方法同时利用有标签和无标签数据进行训练,解决了标注样本少的问题。同时通过局部学习策略,解决了分布偏倚对测试样本分类结果的影响。该方法在个人邮箱垃圾邮件过滤实验中取得了较好的效果。5.针对多种属性文本的表示问题,提出了一种多核集成学习方法。该方法解决了单个核函数无法表达多种属性关系的问题。同时为解决新闻主题层次分类问题,提出了多核相关向量机分类方法。在层次分类实验中表明,该方法能够有效地给出新闻报道的相似性,具有较好的主题层次分类效果。
相关内容
相关标签