当前位置:问答库>论文摘要

题目:PPI网络的群智能信息流模型与算法研究

关键词:蛋白质相互作用网络,人工蜂群算法,聚类,直觉模糊集

  摘要


随着对生物信息学的不断研究,人们发现生物功能都是通过一批基因的相互作用形成网络而得以发挥的,因此采用“相互作用-网络-功能”新思路,整合基因、蛋白质的不同方面进行基因功能分析,是当前基因组研究的新方向。在一个生命体内所有蛋白质之间的相互作用,称为蛋白质相互作用(Protein-Protein Interaction, PPI)网络。研究PPI网络的主要目的是识别与分析细胞环境中生物分子的相互作用,以便深入理解生物分子相互作用与执行功能的机制,从而帮助我们预测未知的蛋白质功能。群智能优化算法已经被学者们深入研究和广泛应用,因此本文尝试将群智能优化机理用于解决PPI网络聚类问题。
本文主要研究内容和创新点如下:
(1) 针对许多传统聚类算法需要预先设定聚类个数且对于PPI网络聚类效果不佳的问题,结合PPI网络小世界、无尺度特性,提出了一种新的利用距离-密度自动确定聚类个数,并剔除噪声点的基于蜂群和广度优先遍历的聚类算法。该算法首先根据距离-密度聚类算法确定聚类个数、剔除噪声点,利用新提出的广度优先遍历聚类算法实现聚类,然后利用蜂群算法自动获取一个最优合并阈值,根据最优合并阈值进行合并,得到最终聚类结果。与传统聚类算法比较,该算法的聚类效果得到了明显改善。
(2) 针对信息流聚类算法没有考虑到结点间距离的作用效果,并需要人为设定合并阈值两个缺陷,利用蜂群算法三种蜜蜂的不同职能,提出了一种新的基于蜂群优化搜索的信息流聚类算法,对原功能流模拟聚类算法的整个聚类过程进行了改进。该算法中用结点网络综合特征值进行数据预处理并将结点按结点网络综合特征值的降序排列,利用结点网络综合特征值确定聚类中心,将蜜源位置对应聚类中心,蜜源的收益度大小对应模块间的相似度,采蜜蜂结点的所有邻接点按照结点网络综合特征值的降序排列,作为侦察蜂的搜索邻域。将结点网络综合特征值作为注释蛋白质的初始信息流,按照结点网络综合特征值的降序遍历结点的邻接点实现聚类,合并阈值利用蜂群算法自动获取。与原信息流聚类算法相比,改进后的信息流算法的聚类正确率,查全率以及它们的调和平均值都得到了很大提高。
(3) 针对PPI网络中一个蛋白质同时属于几个功能模块的情况,以及PPI网络中有些结点之间不可达的情况,本文利用模糊集理论“亦彼亦此”的特性,提出了一种基于蜂群优化机理与模糊隶属度矩阵相结合的算法。该算法中我们对其目标函数进行了改进;并利用蜂群优化算法来更新聚类中心:受细菌觅食趋向行为的启发,利用跟随蜂来选取原聚类中心所在的类中信息量较大的结点作为新的聚类中心,若跟随蜂无法更新,则利用侦察蜂进行全局搜索,更新聚类中心。该方法利用蜂群算法自动优化聚类中心来克服模糊c-均值聚类和直觉模糊聚类算法对聚类中心敏感的缺陷,仿真结果表明该算法性能稳定并且对于PPI网络聚类效果较好。