当前位置:问答库>论文摘要

题目:基于群智能优化的聚类算法研究

关键词:聚类分析,群智能算法,人工鱼群算法,免疫接种,萤火虫算法

  摘要


随着信息技术的快速发展,现实社会中的数据量也呈现出爆炸式的增长。从庞大且复杂的数据库中寻求人们感兴趣的内部关联并发掘数据中隐含的知识,是人们迫切希望解决的课题。聚类分析作为数据挖掘领域中用来识别数据对象、发现数据内在关系的重要工具之一,具有非常重要的作用。本文通过分析和总结传统聚类算法面临的一些问题和缺陷,结合群智能算法的特点和优势,将二者有机结合起来,使用群智能算法来优化聚类过程。

本文的主要研究工作如下:
(1) 传统的K-均值聚类方法,在聚类过程中过度依赖初始聚类中心的选择,同时由于全局搜索能力的不足,很难得到精确的聚类中心。鱼群算法在解决优化问题中表现出良好的并行性和全局搜索特性,但由于人为设置参数的影响可能会陷入局部最优。针对聚类问题的特征,将鱼群算法运用到聚类问题中,在使用自适应步长的鱼群算法的基础上,进一步融合免疫接种机制,加强算法对精确解的搜索性能,最后通过UCI数据集上的实验分析和比较,表明算法具有更好的有效性和稳定性。
(2) 针对传统的划分聚类方法过度依赖初始聚类中心和容易陷入局部最优的问题,提出基于萤火虫算法的改进划分聚类方法(New Firefly Algorithm,NFA)。该算法将萤火虫个体对应于一组聚类中心的解,类簇的聚合度对应于萤火虫的亮度,通过萤火虫个体之间的相互吸引来寻找聚类中心的最优解。在寻优过程中使用随机分布的萤火虫种群来克服划分聚类过于依赖初始聚类中心的问题,采用自适应步长的策略加强算法寻找精确解的能力。为了避免在寻优过程中因为种群过于集中而导致算法陷入局部最优,引入小生境技术提高萤火虫的种群多样性。通过对UCI数据集进行仿真实验,表明该算法的聚类正确率和稳定性得到提高。
(3) 分析蛋白质相互作用网络中各蛋白质结点之间的相互关系,并通过聚类来预测和识别蛋白质功能模块,是当前具有重要生物意义的一项研究。近年来有一些新算法被提出但聚类效果仍有待提升。本文提出了一种基于人工免疫特性的PPI网络聚类模型。在该算法中将聚类中心作为抗原,将邻接的结点作为抗体,通过计算抗体与抗原之间的亲和度,将其作为记忆细胞将结点划分到聚类中,然后选择优秀抗体作为疫苗,尝试将疫苗注入聚类模块并进行更新,通过与注射前的模块适应度进行比较,不断更新记忆细胞。对PPI数据集上的数据进行仿真实验后,结果表明f-measure值得到了提高。