学习:StatQuest-Heatmap

Heatmap

image.png

在RNA-seq中热图往往用于衡量不同样本不同基因的表达情况(主要看上下表达),这个图就是个热图,横坐标表示不同样本,纵坐标表示基因。

热图中的标准化和聚类

Z-score

image.png

如果有一列数据,我们要计算Z-score:

  1. 计算这组数据的均值
  2. 每个数据点减去均值
  3. 计算标准差
  4. 用第二步计算的值除以标准差


    image.png

    标准化有对某一基因标准化的,有对每个样本进行标准化的,有对整体进行标准化的

聚类

1.层次聚类

image.png

假设我有4个基因,三个样品,我们看个小热图,能清楚每个样品中,哪些基因是相似的。把这些基因聚到一起,如下图:


image.png

然后将他们聚到一起:


image.png

我们利用以下公式计算对应样品基因的相似度
image.png

image.png

当然,以上是根据欧式距离
我们还可以根据曼哈顿距离:绝对值之和


image.png

以及马氏距离来计算对应样本两个基因的相似度

总结一下:


image.png

热图两个重要的步骤,一个是标准化,另一个是聚类

你可能感兴趣的:(学习:StatQuest-Heatmap)