基因表达分析-距离矩阵

1、对许多基因而言,在一个功能家族中,基因的序列相似性是很弱的,人们不能仅仅依靠序列来可靠判断这个新测序的基因的功能。

2、表达矩阵的元素Ii,j表示基因i在实验条件j时的表达水平。整个表达矩阵的第i行称为基因i的表达模式。可在表达矩阵中寻找具有相似表达模式的成对基因,将这些基因标记为2个相似行。如果2个基因的表达模式是相似的,那么这2个基因有可能具有某种联系,这2个基因可能执行相似的功能。

3、聚类算法是将表达式相似的基因分组到一个类中,希望这些类对应于功能相关的基因的组合。对表达数据进行聚类,一个n*m的表达矩阵通常要转换成一个n*n距离矩阵d=(di,j),其中di,j反映基因i和j的表达模式具有怎样的相似性。分组到不同的类中,且满足下面2个条件:

1)同质性:di,j应很小。

2)差异性:di,j应很大。

你可能感兴趣的:(算法与计算,算法)