● 摘要
随着互联网的迅猛发展,网络上的信息急剧膨胀,给人类带来便利的同时也产生了新的问题。Web上的海量数据多为半结构化或非结构化数据,要在如此巨大的数据资源中发现有价值的信息,就迫切需要一种有效的信息处理技术。于是,Web文本挖掘技术应运而生,并迅速成为研究热点。与此同时,聚类分析作为一种自动化程度较高的无监督机器学习方法,在文本挖掘、信息检索、多文档自动文摘等领域获得了广泛的应用。因此,将聚类分析理论用于Web文本挖掘具有重要的理论意义和实用价值。本文首先介绍了Web文本挖掘的基本概念,并阐述了Web文本挖掘流程涉及到的关键技术。同时,对聚类基本理论和常见的经典聚类算法进行了概述。在此基础上,讨论了Web文本聚类算法与传统文本聚类算法的差异,并通过理论研究和实验证明,从经典聚类算法中选择了适用于Web文本挖掘的聚类算法——DBSCAN算法。为了改善DBSCAN算法在Web文本挖掘领域的聚类质量,本文引入了复杂网络(Complex Networks)中的社区发现理论,借助基于边介数(Edge Betweenness)的GN算法思想,通过计算Web文档间的介数中心度矩阵,将基于超链接信息的结构相似度矩阵与基于正文文本信息的文本相似度矩阵相结合,提出了DBSCAN-LINK算法,并由实验证明,在Web文本挖掘领域DBSCAN-LINK算法表现出比DBSCAN算法更优的聚类效果。本文最大的意义在于找到了Web文档中纯文本信息与结构信息的结合点,为Web文本挖掘提出了崭新的研究视角。