当前位置:问答库>论文摘要

题目:半监督聚类在在线评论挖掘中的应用研究

关键词:数据挖掘;半监督聚类;在线评论挖掘;产品特征挖掘;情感演化

  摘要

随着 Web 2.0 的兴起以及电子商务的快速发展,越来越多的消费者选择网络购物,并发表在线评论。在线评论是用户针对产品的用户体验的直接表达,蕴含了用户对产品和服务的态度和意见,成为潜在消费者了解产品信息的一个重要的来源,并且在一定程度上影响着消费者的潜在消费行为。充分挖掘在线评论中蕴含的信息,对于消费者的购买决策和企业的管理决策都是很有意义的。机器学习方法在数据挖掘中有着广泛的应用。在机器学习及相关领域中,有监督学习需要大量的已标记的数据来保证算法的泛化能力,而得到标记数据通常是很困难、很昂贵且很费时的。但是以较小的成本获得少量的监督信息是可行的。半监督聚类方法利用已知的少量监督信息来指导聚类过程,以获得更好的聚类效果,同时能够充分的利用数据集本身的结构信息。本文首先提出了一种基于密度的半监督的多步聚类算法(SMDBSCAN),从数据集本身的数据结构中挖掘密度层次信息,然后利用少量易于获得的半监督信息指导算法参数的选择,提高聚类效果,并在模拟数据集和UCI标准数据集上进行了实验验证。实验证明,该算法在复杂结构的数据集上体现了较好的聚类效果,能够自动识别不同密度层次的簇,并根据输入的半监督信息有效地调整聚类结果。其次,本文建立了一个在线评论数据挖掘的应用模型,主要进行了产品特征提取和基于产品特征的情感分析两部分研究工作。本文以京东商城上目标产品的在线评论为样本,进行了用户关注产品特征挖掘以及情感倾向分析实验。首先,将本文提出的半监督聚类算法应用到静态在线评论数据集以及时间序列在线评论数据集中,获得用户关注的产品特征并按照关注度大小进行排序展示,分析产品特征的演化趋势及其在企业管理中的应用;其次,在提取出的产品特征子集上,利用基于情感词词典的方法提取情感词,然后利用支持向量机在不同的产品特征子集上进行情感分类,给出了情感分析指标和基于产品特征的情感倾向值的定义和计算方法,进行了挖掘结果的可视化及在企业管理中的应用研究。