● 摘要
基因表达图谱(也称基因表达数据)是通过DNA微阵列技术或者RNA测序技术得到的高维度的数据矩阵。DNA微阵列技术和RNA测序技术使得生物学家可以在同一时间定量分析大量(成千上万个)的基因表达,从而能够在基因组水平上以系统的、全局的观念去研究生命现象。而特别地,通过对不同部位、不同阶段的基因表达进行对比,可以对功能相似的基因进行分类或聚集,这为理解基因的相互关系、大规模确定基因功能提供了数据依据。由于基因表达数据的实验数相对于基因数极少,而且存在大量与分类无关的噪声(冗余基因,冗余采样),从而造成了严重的“维数灾难”和“过适应”等问题,这给传统的聚类分析方法带来新的挑战。本文以这样的基因表达图谱作为数据参考,构造新型的聚类模型和聚集条件,寻求发展新型的聚类技术及其方法,研究其生物学中基因表达性能,从而发展出新的更好的聚类器。经验证明表达谱的相似性是功能相似基因表现出的数据特征,本文设计的几种方法都是围绕着抓住该数据特征,将功能相似基因聚成一类从而从众多的基因中分离出来。主要方法如下:(1)提出一种检测基因相关关系的双边聚类方法。该方法首先引进一种新的线性模型,其用来描述基因在不同实验条件下的表达水平。然后,它设计一种新型的数据转换对线性模型进行转换,从而呈现出能描述基因谱相似性的量。最后针对被分成不同类的基因具有不同的量这一特点,该方法设计一种得分系统来测量双边类中这些量,并运用贪婪搜索算法在整个基因表达矩阵中搜索高得分的子矩阵(即双边类)。在仿真数据中应用该方法,结果显示该方法能够发现隐藏在整个矩阵中具有相似表达行为的子矩阵。对于真实的微阵列数据,该方法也显示了其识别具有相似表达谱的基因的能力。(2)提出一种识别具有线性模式双边类的双边聚类方法。该方法首先使用皮尔森相关度来描述基因间表达水平的相似性。然后它设计了一种新的目标函数,这种目标函数不仅考虑了双边类中基因之间和实验条件之间的相关性,同时也考虑了双边类外的基因之间和实验条件之间的相关性。最后该方法通过运用贪婪搜索算法和遗传算法来最大化这一目标函数,并且联合重采样技术来得到抗干扰的发现。在仿真和真实数据中应用该方法,结果显示这一方法优于目前所有的方法。在分析果蝇和蠕虫在不同时间段的RNA序列表达数据时,该方法发现了一类具有相似表达水平的母体效应基因。(3)提出一种识别基因表达数据中的单调关系的方法。该方法不同于仅使用皮尔森相关度来发现线性关系的方法,它首先建立一个回归样条模型用以检测出变量对之间的函数关系,然而由于其中一些关系是没有生物意义的关系,基于此它又设计一个惩罚性皮尔森相关度来从中挑出那些具有单调关系的变量对,这样能够识别出比线性关系范围更宽的单调关系。在包含了十种不同函数关系的仿真数据上应用IdmR,结果发现仅仅使用回归样条模型的IdmR就能识别出这十种关系。另外,将IdmR应用到微阵列和RNA序列基因表达数据中,结果显示IdmR能够发现新的生物关系,这与现有的方法发现的关系有所不同的。