使用ComplexHeatmap绘制复杂热图|Note2:单个热图(万字超详细教程)

complexheat_2.jpg

2. 单个热图

2.1 颜色
2.2 标题
2.3 聚类
2.3.1 距离方法
2.3.2 聚类方法
2.3.3 渲染树状图
2.3.4 重排树状图
2.4 设置行列顺序
2.5 维度名称
2.6 热图分割
2.6.1 用k-means聚类分割
2.6.2 通过分类变量分割
2.6.3 根据树状图分割
2.6.4 切片顺序
2.6.5 切片标题
2.6.6 分割图形参数
2.6.7 切片间隙
2.6.8 分割热图注释
2.7 自定义热图主体
2.7.1 cell_fun
2.7.2 layer_fun
2.8 热图大小
2.9 热图子集


单个热图是最常用的数据可视化方法。尽管ComplexHeatmap包的“亮点”是它可以并行地可视化热图列表,但是,作为热图列表的基本单元,对单个热图进行良好配置仍然是非常重要的。

首先,让我们生成一个随机矩阵,其中有三组在列和三组在行:

set.seed(123)#设种子为了随机可重复
nr1 = 4; nr2 = 8; nr3 = 6; nr = nr1 + nr2 + nr3
nc1 = 6; nc2 = 8; nc3 = 10; nc = nc1 + nc2 + nc3
#cbind按行合并 rbind按列合并
mat = cbind(rbind(matrix(rnorm(nr1*nc1, mean = 1,   sd = 0.5), nr = nr1),
          matrix(rnorm(nr2*nc1, mean = 0,   sd = 0.5), nr = nr2),
          matrix(rnorm(nr3*nc1, mean = 0,   sd = 0.5), nr = nr3)),
    rbind(matrix(rnorm(nr1*nc2, mean = 0,   sd = 0.5), nr = nr1),
          matrix(rnorm(nr2*nc2, mean = 1,   sd = 0.5), nr = nr2),
          matrix(rnorm(nr3*nc2, mean = 0,   sd = 0.5), nr = nr3)),
    rbind(matrix(rnorm(nr1*nc3, mean = 0.5, sd = 0.5), nr = nr1),
          matrix(rnorm(nr2*nc3, mean = 0.5, sd = 0.5), nr = nr2),
          matrix(rnorm(nr3*nc3, mean = 1,   sd = 0.5), nr = nr3))
   )
mat = mat[sample(nr, nr), sample(nc, nc)] # 随机打乱行和列
rownames(mat) = paste0("row", seq_len(nr))
colnames(mat) = paste0("column", seq_len(nc))
head(mat)
> head(mat)
         column1     column2   column3     column4    column5     column6    column7
row1  0.90474160 -0.35229823 0.5016096  1.26769942  0.8251229  0.16215217 -0.2869867
row2  0.90882972  0.79157121 1.0726316  0.01299521  0.1391978  0.46833693  1.2814948
row3  0.28074668  0.02987497 0.7052595  1.21514235  0.1747267  0.20949120 -0.6423579
row4  0.02729558  0.75810969 0.5333504 -0.49637424 -0.5261114  0.56724357  0.8127096
row5 -0.32552445  1.03264652 1.1249573  0.66695147  0.4490584  1.04236865  2.6205200
row6  0.58403269 -0.47373731 0.5452483  0.86824798 -0.1976372 -0.03565404 -0.3203530

下面的命令包含Heatmap()函数的最小参数,该函数将矩阵显示为带有默认设置的热图。默认的颜色模式是“蓝-白-红”,它被映射到矩阵中的最小-平均-最大值。

BiocManager::install("ComplexHeatmap")
library(ComplexHeatmap)
Heatmap(mat)
singleheatmap_1

2.1 颜色

用户应该使用circle::colorRamp2()函数来生成Heatmap()中的颜色映射函数。

在下面的例子中,对-2到2之间的值进行线性插值得到相应的颜色,大于2的值都映射为红色,小于-2的值都映射为绿色。

library(circlize)
col_fun = colorRamp2(c(-2, 0, 2), c("green", "white", "red"))
Heatmap(mat, name = "mat", col = col_fun)
singleheatmap_2

colorRamp2()使多个热图中的颜色具有可比性,如果它们是用同一个颜色映射函数设置的。在以下三个热图中,相同的颜色总是对应相同的值。

Heatmap(mat, name = "mat", col = col_fun, column_title = "mat")
Heatmap(mat/4, name = "mat", col = col_fun, column_title = "mat/4")
Heatmap(abs(mat), name = "mat", col = col_fun, column_title = "abs(mat)")
singleheatmap_3

如果矩阵是连续的,你也可以简单地提供一个颜色向量。但是这种方法对离群值是不可靠的,因为映射从矩阵中的最小值开始,以最大值结束。以下颜色映射设置与colorRamp2(seq(min(mat), max(mat), length = 10), rev(rainbow(10))相同。

Heatmap(mat, name = "mat", col = rev(rainbow(10)), 
    column_title = "set a color vector for a continuous matrix")
singleheatmap_4

如果矩阵包含离散值(数字或字符),颜色应指定为命名向量,使离散值映射到颜色成为可能。注意现在图例是由颜色映射向量生成的。

下面为离散数字矩阵设置颜色(不需要将其转换为字符矩阵)。

discrete_mat = matrix(sample(1:4, 100, replace = TRUE), 10, 10)
colors = structure(1:4, names = c("1", "2", "3", "4")) # black, red, green, blue
Heatmap(discrete_mat, name = "mat", col = colors,
    column_title = "a discrete numeric matrix")
singleheatmap_5

或者字符矩阵:

discrete_mat = matrix(sample(letters[1:4], 100, replace = TRUE), 10, 10)
colors = structure(1:4, names = letters[1:4])
Heatmap(discrete_mat, name = "mat", col = colors,
    column_title = "a discrete character matrix")
singleheatmap_6

矩阵中允许有NA。可以通过na_col参数来控制NA的颜色(默认为灰色)。包含NA的矩阵可以通过Heatmap()进行聚类。注意图例中没有NA的值。

mat_with_na = mat
na_index = sample(c(TRUE, FALSE), nrow(mat)*ncol(mat), replace = TRUE, prob = c(1, 9))
mat_with_na[na_index] = NA  #构建含NA的矩阵
Heatmap(mat_with_na, name = "mat", na_col = "black",
    column_title = "a matrix with NA values")
singleheatmap_7

颜色空间对于插值颜色非常重要。默认情况下,颜色是在LAB color space中线性插值的,但是可以在colorRamp2()函数中选择颜色空间。

f1 = colorRamp2(seq(min(mat), max(mat), length = 3), c("blue", "#EEEEEE", "red"))
f2 = colorRamp2(seq(min(mat), max(mat), length = 3), c("blue", "#EEEEEE", "red"), space = "RGB")
Heatmap(mat, name = "mat1", col = f1, column_title = "LAB color space")
Heatmap(mat, name = "mat2", col = f2, column_title = "RGB color space")
singleheatmap_8

热图边界的颜色可以通过border/border_gprect_gp参数设置。border/border_gp控制热图主体的全局边界,rect_gp控制热图中的网格/单元格的边界。

border的值可以是逻辑的(TRUE对应黑色)或一个颜色字符(例如红色)。这

rect_gp是一个gpar对象,这意味着你只能通过grid::gpar()来设置它。由于填充的颜色已经由热图颜色映射控制,所以您只能在gpar()中设置col参数来控制热图网格的边界。

Heatmap(mat, name = "mat", border = FALSE,
        column_title = "set heatmap borders")
singleheatmap_11
Heatmap(mat, name = "mat", rect_gp = gpar(col = "white", lwd = 2),
    column_title = "set cell borders")#lty线型, lwd线宽
singleheatmap_12
Heatmap(mat, name = "mat", rect_gp = gpar(type = "none"),
    column_title = "nothing is drawn in the heatmap body")
singleheatmap_13

2.2 标题

Heatmap(mat, name = "mat", column_title = "I am a column title", 
    row_title = "I am a row title")
singleheatmap_14
Heatmap(mat, name = "mat", column_title = "I am a column title at the bottom", 
    column_title_side = "bottom")
singleheatmap_15
Heatmap(mat, name = "mat", column_title = "I am a big column title", 
    column_title_gp = gpar(fontsize = 20, fontface = "bold"))

singleheatmap_16
标题的旋转可以通过row_title_rotcolumn_title_rot设置,但只允许水平和垂直旋转。

Heatmap(mat, name = "mat", row_title = "row title", row_title_rot = 0)
singleheatmap_17

可以通过设置row_title_gpcolumn_title_gp中的填充参数来设置标题的背景颜色。如row_title_gp控制文本的颜色,所以border用来控制背景边框的颜色。

Heatmap(mat, name = "mat", column_title = "I am a column title", 
    column_title_gp = gpar(fill = "red", col = "white", border = "blue"))
singleheatmap_19

2.3 聚类

聚类是热图可视化的关键组成部分。在ComplexHeatmap包中,分层聚类具有极大的灵活性。你可以通过以下方式来指定聚类:

  • 一种预先定义的距离方法(例如:"euclidean" or "pearson")
  • 一个距离函数
  • 已经包含聚类的对象(hclustdendrogram对象)
  • 一个聚类函数

首先,对于聚类有一般的设置,例如是应用聚类还是显示树状图,树状图的侧面和树状图的高度。

Heatmap(mat, name = "mat", cluster_rows = FALSE) # 不进行行聚类
singleheatmap_20
Heatmap(mat, name = "mat", show_column_dend = FALSE) # 不显示列树状图
singleheatmap_21
Heatmap(mat, name = "mat", row_dend_side = "right", column_dend_side = "bottom") #树状图位置
singleheatmap_22
Heatmap(mat, name = "mat", column_dend_height = unit(4, "cm"), 
    row_dend_width = unit(4, "cm")) #树状图高、宽
singleheatmap_23

2.3.1 距离方法

层次聚类分为两步:计算距离矩阵和应用聚类。有三种方法来指定聚类的距离度量:

  • 指定距离作为一个预定义的选项。有效值是dist()函数和“pearson”“spearman”“kendall”中支持的方法。相关距离定义为1 - cor(x, y, method)。所有这些内置的距离方法都允许NA值。
  • 自定义函数,计算与矩阵的距离。这个函数应该只包含一个参数。请注意在列上的聚类,矩阵会自动转置。
  • 一个自定义的函数,计算到两个向量的距离。
Heatmap(mat, name = "mat", clustering_distance_rows = "pearson",
    column_title = "pre-defined distance method (1 - pearson)")
singleheatmap_24
Heatmap(mat, name = "mat", clustering_distance_rows = function(m) dist(m),
    column_title = "a function that calculates distance matrix")
singleheatmap_25
Heatmap(mat, name = "mat", clustering_distance_rows = function(x, y) 1 - cor(x, y),
    column_title = "a function that calculates pairwise distance")
singleheatmap_26

基于这些特征,我们可以利用两两距离对离群点进行鲁棒聚类。这里我们设置了颜色映射函数,因为我们不想让离群值影响颜色。

mat_with_outliers = mat
for(i in  1:10) mat_with_outliers[i, i] = 1000
robust_dist = function(x, y) {
    qx = quantile(x, c(0.1, 0.9))
    qy = quantile(y, c(0.1, 0.9))
    l = x > qx[1] & x < qx[2] & y > qy[1] & y < qy[2]
    x = x[l]
    y = y[l]
    sqrt(sum((x - y)^2))
}

我们可以比较使用和不使用鲁棒距离方法两个热图:

Heatmap(mat_with_outliers, name = "mat", 
    col = colorRamp2(c(-2, 0, 2), c("green", "white", "red")),
    column_title = "dist")
Heatmap(mat_with_outliers, name = "mat", 
    col = colorRamp2(c(-2, 0, 2), c("green", "white", "red")),
    clustering_distance_rows = robust_dist,
    clustering_distance_columns = robust_dist,
    column_title = "robust_dist")
singleheatmap_27

如果有合适的距离方法(如stringdist包中的方法),也可以对字符矩阵进行聚类。

mat_letters = matrix(sample(letters[1:4], 100, replace = TRUE), 10)
# distance in the ASCII table
dist_letters = function(x, y) {
    x = strtoi(charToRaw(paste(x, collapse = "")), base = 16)
    y = strtoi(charToRaw(paste(y, collapse = "")), base = 16)
    sqrt(sum((x - y)^2))
}
Heatmap(mat_letters, name = "letters", col = structure(2:5, names = letters[1:4]),
    clustering_distance_rows = dist_letters, clustering_distance_columns = dist_letters,
    cell_fun = function(j, i, x, y, w, h, col) { # add text to each grid
        grid.text(mat_letters[i, j], x, y)
    })
singleheatmap_28

2.3.2 聚类方法

执行分层聚类的方法,可以通过clustering_method_rowsclustering_method_columns指定。可能的方法是hclust()函数中支持的方法。

Heatmap(mat, name = "mat", clustering_method_rows = "single")
singleheatmap_29

如果已经有一个聚类对象,则可以忽略距离设置,并将cluster_rowscluster_columns设置为聚类对象或聚类函数。如果它是一个聚类函数,唯一的参数应该是矩阵,它应该返回一个hclustdendrogram对象,或者一个可以转换为dendrogram类的对象。

在下面的例子中,我们通过预先计算的聚类对象或聚类函数来使用聚类包中的方法来执行聚类:

library(cluster)
Heatmap(mat, name = "mat", cluster_rows = diana(mat),
   cluster_columns = agnes(t(mat)), column_title = "clustering objects")
singleheatmap_30
# 如果将cluster_columns设置为一个函数,则不需要转置矩阵
Heatmap(mat, name = "mat", cluster_rows = diana,
   cluster_columns = agnes, column_title = "clustering functions")
singleheatmap_32

使用下面的命令也是一样的:

# code only for demonstration
Heatmap(mat, name = "mat", cluster_rows = function(m) as.dendrogram(diana(m)),
    cluster_columns = function(m) as.dendrogram(agnes(m)), 
    column_title = "clutering functions")

2.3.3 渲染树状图

可以通过dendextend包来呈现树形图对象,使树形图更具个性化。

library(dendextend)
row_dend = as.dendrogram(hclust(dist(mat)))
row_dend = color_branches(row_dend, k = 2) # `color_branches()` returns a dendrogram object
Heatmap(mat, name = "mat", cluster_rows = row_dend)
singleheatmap_33
Heatmap(mat, name = "mat", cluster_rows = row_dend, row_dend_gp = gpar(col = "red"))
singleheatmap_34png

2.3.4 重排树状图

Heatmap()函数中,树状图被重新排序,使差异较大的特征更加分离(参阅reorder. dendergram()的文档)。这里的差值(或者称为权重)是通过行来度量的,行表示是行树状图,列表示是列树状图。row_dend_reordercolumn_dend_reorder控制是否应用树状图重新排序。重新排序可以通过设置row_dend_reorder = FALSE来关闭。

默认情况下,如果将cluster_rows/cluster_columns设置为逻辑值或聚类函数,则会打开树状图重新排序。如果将cluster_rows/cluster_columns设置为聚类对象,则关闭此选项。

比较下面两个热图:

m2 = matrix(1:100, nr = 10, byrow = TRUE)
Heatmap(m2, name = "mat", row_dend_reorder = FALSE, column_title = "no reordering")
Heatmap(m2, name = "mat", row_dend_reorder = TRUE, column_title = "apply reordering")
singleheatmap_35

还有许多其他方法可以对树状图进行重新排序,例如dendsort包。也可以根据数据矩阵生成行或列树状图,通过某些方法重新排序它,并将它分配回cluster_rowscluster_columns

比较下面两个重排树状图后的热图:

Heatmap(mat, name = "mat", column_title = "default reordering")

library(dendsort)
row_dend = dendsort(hclust(dist(mat)))
col_dend = dendsort(hclust(dist(t(mat))))
Heatmap(mat, name = "mat", cluster_rows = row_dend, cluster_columns = col_dend,
    column_title = "reorder by dendsort")

2.4 设置行列顺序

聚类用于调整热图的行顺序和列顺序,但仍然可以通过row_ordercolumn_order手动设置顺序。

#如果出错了,重新创建mat数据矩阵
Heatmap(mat, name = "mat", row_order = order(as.numeric(gsub("row", "", rownames(mat)))), 
    column_order = order(as.numeric(gsub("column", "", colnames(mat)))),
    column_title = "reorder matrix")
singleheatmap_38

顺序可以是字符向量如果它们只是变换矩阵的行名或列名:

Heatmap(mat, name = "mat", row_order = sort(rownames(mat)), 
    column_order = sort(colnames(mat)),
    column_title = "reorder matrix by row/column names")
singleheatmap_39

2.5 维度名称

默认情况下,行名和列名绘制在热图的右侧和底部。维度名称的侧面、可见性和图形参数设置如下:

Heatmap(mat, name = "mat", row_names_side = "left", row_dend_side = "right", 
    column_names_side = "top", column_dend_side = "bottom")
singleheatmap_40
Heatmap(mat, name = "mat", show_row_names = FALSE)
singleheatmap_41
Heatmap(mat, name = "mat", row_names_gp = gpar(fontsize = 20))
singleheatmap_42.
Heatmap(mat, name = "mat", row_names_gp = gpar(col = c(rep("red", 10), rep("blue", 8))))
singleheatmap_43
Heatmap(mat, name = "mat", row_names_centered = TRUE, column_names_centered = TRUE)
singleheatmap_44

可以通过column_names_rot设置列名的旋转:

Heatmap(mat, name = "mat", column_names_rot = 45)
Heatmap(mat, name = "mat", column_names_rot = 45, column_names_side = "top",
    column_dend_side = "bottom")
singleheatmap_45

如果行名或列名太长,可以使用row_names_max_widthcolumn_names_max_height为它们设置最大空间。行名和列名的默认最大空间都是6厘米。在下面的代码中,max_text_width()是一个帮助函数,用于快速计算文本向量的最大宽度。

mat2 = mat
rownames(mat2)[1] = paste(c(letters, LETTERS), collapse = "")
Heatmap(mat2, name = "mat", row_title = "default row_names_max_width")
Heatmap(mat2, name = "mat", row_title = "row_names_max_width as length of a*",
    row_names_max_width = max_text_width(
        rownames(mat2), 
        gp = gpar(fontsize = 12)
    ))
singleheatmap_46

除了直接使用矩阵中的行/列名,还可以提供另一个对应于行或列的字符向量,并通过row_labelscolumn_labels设置。

对于基因表达分析,我们可以使用Ensembl ID作为基因ID,作为基因表达矩阵的行名。但是,Ensembl ID用于编制Ensembl数据库的索引,而不是用于人类阅读。相反,我们更愿意将gene symbols作为行名放在热图上,这样更容易阅读。为此,我们只需要将相应的gene symbols分配给row_labels,而不需要修改原始矩阵。

第二个优点是row_labelscolumn_labels允许重复标签,而矩阵中不允许重复的行名或列名。

下面给出了一个简单的例子,我们把字母作为行标签和列标签:

#使用一个命名向量来确保两者之间的对应关系
row_labels = structure(paste0(letters[1:24], 1:24), names = paste0("row", 1:24))
column_labels = structure(paste0(LETTERS[1:24], 1:24), names = paste0("column", 1:24))
row_labels
> row_labels
 row1  row2  row3  row4  row5  row6  row7  row8 
 "a1"  "b2"  "c3"  "d4"  "e5"  "f6"  "g7"  "h8" 
 row9 row10 row11 row12 row13 row14 row15 row16 
 "i9" "j10" "k11" "l12" "m13" "n14" "o15" "p16" 
row17 row18 row19 row20 row21 row22 row23 row24 
"q17" "r18" "s19" "t20" "u21" "v22" "w23" "x24" 
Heatmap(mat, name = "mat", row_labels = row_labels[rownames(mat)], 
    column_labels = column_labels[colnames(mat)])
singleheatmap_47

第三个优点是可以在热图中使用数学表达式作为行名。
singleheatmap_48

2.6 热图分割

ComplexHeatmap包的一个主要优点是它支持按行和列拆分热图,以便更好地分组特性,并额外突出显示模式。

以下参数可以控制拆分:row_km, row_split, column_km, column_split。下面,我们将通过分割生成的子聚类称为 “slices”(片)。

2.6.1 用k-means聚类分割

row_kmcolumn_km应用k-means分区。

Heatmap(mat, name = "mat", row_km = 2)
singleheatmap_49
Heatmap(mat, name = "mat", column_km = 3)
singleheatmap_50

行分割和列分割可以同时执行。

Heatmap(mat, name = "mat", row_km = 2, column_km = 3)

Heatmap()内部使用随机的起始点调用kmeans(),在某些情况下,这会导致重复运行产生不同的集群。为了消除这个问题,可以将row_km_repeatscolumn_km_repeats设置为大于1的数字,以便多次运行kmeans(),并使用最终一致的k-means集群。注意,k-means的最终簇数可能小于row_kmcolumn_km中设置的簇数。

# of course, it will be a little bit slower
Heatmap(mat, name = "mat", 
    row_km = 2, row_km_repeats = 100,
    column_km = 3, column_km_repeats = 100)

2.6.2 通过分类变量分割

可以将row_splitcolumn_split设置为分类向量或数据帧,其中不同的级别组合拆分热图中的行/列。

# 通过一个向量拆分
Heatmap(mat, name = "mat", 
    row_split = rep(c("A", "B"), 9), column_split = rep(c("C", "D"), 12))
singleheatmap_52
#矩阵分割
Heatmap(mat, name = "mat", 
    row_split = data.frame(rep(c("A", "B"), 9), rep(c("C", "D"), each = 9)))
singleheatmap_53
# 多维度分割
Heatmap(mat, name = "mat", row_split = factor(rep(c("A", "B"), 9)),
    column_split = factor(rep(c("C", "D"), 12)))
singleheatmap_54

row_km/column_kmrow_splitcolumn_split混合使用。

Heatmap(mat, name = "mat", row_split = rep(c("A", "B"), 9), row_km = 2)
singleheatmap_55

如果对默认的k-means分区不满意,只需将其它分区向量赋值给row_split/column_split

pa = cluster::pam(mat, k = 3)
Heatmap(mat, name = "mat", row_split = paste0("pam", pa$clustering))
singleheatmap_56

如果设置了row_ordercolumn_order,那么在每个行/列切片中,它仍然是有序的。

Heatmap(mat, name = "mat", row_order = 18:1, row_km = 2)

[图片上传失败...(image-d233d3-1618040477618)]

字符矩阵只能通过row_split/column_split参数进行分割。

# 通过' discrete_mat '中的第一列进行分割
Heatmap(discrete_mat, name = "mat", col = 1:4, row_split = discrete_mat[, 1])
singleheatmap_58

如果设置row_km/column_km或将row_split/column_split设置为向量或数据帧,则首先对每个切片进行分层聚类,生成k个树状图,然后根据每个切片的均值生成一个父树状图。通过在所有子树切片中添加树状图的最大高度来调整父树状图的高度,并将父树状图添加到子树状图的顶部,形成单个全局树状图。这就是为什么会在之前的热图中看到树状图中的虚线。它们被用来区分父树图和子树图,并提醒用户它们是以不同的方式计算的。这些虚线可以通过在Heatmap()中设置show_parent_dend_line = FALSE来删除,或者将其设置为全局选项:ht_opt$show_parent_dend_line = FALSE

#隐藏虚线
Heatmap(mat, name = "mat", row_km = 2, column_km = 3, show_parent_dend_line = FALSE)
singleheatmap_59

2.6.3 根据树状图分割

分割的第二个场景是,保留全局树形图,而不是在第一个地方分割它。在本例中,可以将row_split/column_split设置为单个数字,这将在行/列树形图上应用cutree()

在这种情况下,树状图仍然与原来的树状图相同,只是树状图叶子的位置通过切片之间的间隙稍有调整。(这里没有虚线,因为这里的树状图是作为一个完整的树状图计算的,没有父树状图或子树状图。)

Heatmap(mat, name = "mat", row_split = 2, column_split = 3)
singleheatmap_60
dend = hclust(dist(mat))
dend = color_branches(dend, k = 2)
Heatmap(mat, name = "mat", cluster_rows = dend, row_split = 2)
singleheatmap_61

2.6.4 切片顺序

默认情况下,当row_split/column_split被设置为一个分类变量或row_km/column_km被设置时,会对切片的均值应用额外的聚类来显示切片级别的层次结构。在此场景下,无法精确控制切片的顺序,因为它是由切片的聚类控制的。

不过,可以将cluster_row_slicescluster_column_slices设置为FALSE来关闭切片上的聚类来精确地控制切片的顺序。

当没有切片的聚类时,每个切片的顺序可以由row_split/column_split中每个变量的级别来控制(在这种情况下,每个变量都应该是一个因子)。如果所有变量都是字符,则默认顺序是unique(row_split)或唯一的 unique(column_split)。比较以下的热图:

Heatmap(mat, name = "mat", 
  row_split = rep(LETTERS[1:3], 6),
    column_split = rep(letters[1:6], 4))
singleheatmap_62
#聚类与之前的热图相似,只是在树形图的某些节点上翻转了分支
Heatmap(mat, name = "mat", 
  row_split = factor(rep(LETTERS[1:3], 6), levels = LETTERS[3:1]),
    column_split = factor(rep(letters[1:6], 4), levels = letters[6:1]))
singleheatmap_63
# 设定顺序
Heatmap(mat, name = "mat", 
  row_split = factor(rep(LETTERS[1:3], 6), levels = LETTERS[3:1]),
    column_split = factor(rep(letters[1:6], 4), levels = letters[6:1]),
    cluster_row_slices = FALSE, 
    cluster_column_slices = FALSE)
singleheatmap_64

2.6.5 切片标题

row_split/column_split为单个数字时,只有一个分类变量,而当row_km/column_km和/或row_split/column_split为分类变量时,会有多个分类变量。默认情况下,标题的形式是"level1,level2,..."

ComplexHeatmap支持三种类型的模板。

第一个是sprintf(),其中%s被相应的级别替换。在下面的示例中,由于split的所有组合都是 A,C, A,D, B,C and B,D,如果row_title设置为%s|%s,那么四个行标题将是 A|C, A|D, B|C, B|D

split = data.frame(rep(c("A", "B"), 9), rep(c("C", "D"), each = 9))
Heatmap(mat, name = "mat", row_split = split, row_title = "%s|%s")
singleheatmap_65

默认情况下,行标题是旋转的,可以设置row_title_rot = 0使其水平:

Heatmap(mat, name = "mat", row_split = split, row_title = "%s|%s", row_title_rot = 0)

row_split/column_split设置为一个数字时,还可以使用template来调整切片的标题。

Heatmap(mat, name = "mat", row_split = 2, row_title = "cluster_%s")
singleheatmap_66

如果知道行切片的最终数量,可以直接将标题向量设置为row_title。注意,行片的数量并不总是与 nlevel_1*nlevel_2*...相同。

Heatmap(mat, name = "mat", row_split = split, 
    row_title = c("top_slice", "middle_top_slice", "middle_bottom_slice", "bottom_slice"),
    row_title_rot = 0)
singleheatmap_67

2.6.6 分割图形参数

# 默认情况下,标题顶部没有空格,这里我们在顶部添加4pt。
#可以通过' ht_opt(reset = TRUE) '来重置
ht_opt$TITLE_PADDING = unit(c(4, 4), "points")
Heatmap(mat, name = "mat", 
    row_km = 2, row_title_gp = gpar(col = c("red", "blue"), font = 1:2),
    row_names_gp = gpar(col = c("green", "orange"), fontsize = c(10, 14)),
    column_km = 3, column_title_gp = gpar(fill = c("red", "blue", "green"), font = 1:3),
    column_names_gp = gpar(col = c("green", "orange", "purple"), fontsize = c(10, 14, 8)))
singleheatmap_68

2.6.7 切片间隙

行/列片之间的间隙空间可以通过row_gap/column_gap来控制。可以是单个单位,也可以是单位向量。

Heatmap(mat, name = "mat", row_km = 3, row_gap = unit(5, "mm"))
singleheatmap_69
Heatmap(mat, name = "mat", row_km = 3, row_gap = unit(c(2, 4), "mm"))
singleheatmap_70
Heatmap(mat, name = "mat", row_km = 3, row_gap = unit(c(2, 4), "mm"),
    column_km = 3, column_gap = unit(c(2, 4), "mm"))
singleheatmap_71

当通过border = TRUE添加热图边界时,每个切片的边界都会被添加。

Heatmap(mat, name = "mat", row_km = 2, column_km = 3, border = TRUE)
singleheatmap_72

2.6.8 分割热图注释

当热图被分割时,所有的热图组件都相应地被分

Heatmap(mat, name = "mat", row_km = 2, column_km = 3,
    top_annotation = HeatmapAnnotation(foo1 = 1:24, bar1 = anno_points(runif(24))),
    right_annotation = rowAnnotation(foo2 = 18:1, bar2 = anno_barplot(runif(18)))
)
singleheatmap_73

2.7 自定义热图主体

热图主体可以自定义以添加更多类型的图形。默认情况下,热图主体是由带有不同填充颜色的小矩形组成的矩阵(在本文档的其他部分可能称为网格,但我们在这里称它为“单元格”)。然而,也可以在热图上添加更多的图形或符号作为额外的层。有两个参数cell_funlayer_fun,它们都是用户定义的函数。

2.7.1 cell_fun

cell_fun 要求函数有7个参数(参数名称可以和下面不同,但顺序必须相同),它们是:

  • j: 矩阵的列索引。
  • i: 矩阵的行索引。
  • x:在热图主体视口测量的单元格中点的x坐标。
  • y: 在热图主体视口测量的单元格中点的y坐标。
  • width: 单元格的宽度。单位为 unit(1/ncol(sub_mat), "npc") 。其中sub_mat通过行分割和列分割的方式对应子矩阵。
  • height: 单元格的高度。单位 unit(1/nrow(sub_mat), "npc").
  • fill: 单元格的颜色。

最常见的用法是在热图上添加矩阵中的值:

small_mat = mat[1:9, 1:9]
col_fun = colorRamp2(c(-2, 0, 2), c("green", "white", "red"))
Heatmap(small_mat, name = "mat", col = col_fun,
    cell_fun = function(j, i, x, y, width, height, fill) {
        grid.text(sprintf("%.1f", small_mat[i, j]), x, y, gp = gpar(fontsize = 10))
})
singleheatmap_74

我们也可以选择只为正值的单元格添加文本:

Heatmap(small_mat, name = "mat",  col = col_fun,
    cell_fun = function(j, i, x, y, width, height, fill) {
        if(small_mat[i, j] > 0)
            grid.text(sprintf("%.1f", small_mat[i, j]), x, y, gp = gpar(fontsize = 10))
})
singleheatmap_75

在下面的例子中,绘制了一个热图,它显示的相关矩阵类似于corrplot包:

cor_mat = cor(small_mat)
od = hclust(dist(cor_mat))$order
cor_mat = cor_mat[od, od]
nm = rownames(cor_mat)
col_fun = circlize::colorRamp2(c(-1, 0, 1), c("green", "white", "red"))
# `col = col_fun` here is used to generate the legend
Heatmap(cor_mat, name = "correlation", col = col_fun, rect_gp = gpar(type = "none"), 
    cell_fun = function(j, i, x, y, width, height, fill) {
        grid.rect(x = x, y = y, width = width, height = height, 
            gp = gpar(col = "grey", fill = NA))
        if(i == j) {
            grid.text(nm[i], x = x, y = y)
        } else if(i > j) {
            grid.circle(x = x, y = y, r = abs(cor_mat[i, j])/2 * min(unit.c(width, height)), 
                gp = gpar(fill = col_fun(cor_mat[i, j]), col = NA))
        } else {
            grid.text(sprintf("%.1f", cor_mat[i, j]), x, y, gp = gpar(fontsize = 10))
        }
    }, cluster_rows = FALSE, cluster_columns = FALSE,
    show_row_names = FALSE, show_column_names = FALSE)
singleheatmap_76

当设置非标准参数rect_gp = gpar(type = "none")时,热图主体上没有绘制任何内容。

最后一个例子是可视化围棋游戏。输入数据记录游戏中的动作。

str = "B[cp];W[pq];B[dc];W[qd];B[eq];W[od];B[de];W[jc];B[qk];W[qn]
;B[qh];W[ck];B[ci];W[cn];B[hc];W[je];B[jq];W[df];B[ee];W[cf]
;B[ei];W[bc];B[ce];W[be];B[bd];W[cd];B[bf];W[ad];B[bg];W[cc]
;B[eb];W[db];B[ec];W[lq];B[nq];W[jp];B[iq];W[kq];B[pp];W[op]
;B[po];W[oq];B[rp];W[ql];B[oo];W[no];B[pl];W[pm];B[np];W[qq]
;B[om];W[ol];B[pk];W[qp];B[on];W[rm];B[mo];W[nr];B[rl];W[rk]
;B[qm];W[dp];B[dq];W[ql];B[or];W[mp];B[nn];W[mq];B[qm];W[bp]
;B[co];W[ql];B[no];W[pr];B[qm];W[dd];B[pn];W[ed];B[bo];W[eg]
;B[ef];W[dg];B[ge];W[gh];B[gf];W[gg];B[ek];W[ig];B[fd];W[en]
;B[bn];W[ip];B[dm];W[ff];B[cb];W[fe];B[hp];W[ho];B[hq];W[el]
;B[dl];W[fk];B[ej];W[fp];B[go];W[hn];B[fo];W[em];B[dn];W[eo]
;B[gp];W[ib];B[gc];W[pg];B[qg];W[ng];B[qc];W[re];B[pf];W[of]
;B[rc];W[ob];B[ph];W[qo];B[rn];W[mi];B[og];W[oe];B[qe];W[rd]
;B[rf];W[pd];B[gm];W[gl];B[fm];W[fl];B[lj];W[mj];B[lk];W[ro]
;B[hl];W[hk];B[ik];W[dk];B[bi];W[di];B[dj];W[dh];B[hj];W[gj]
;B[li];W[lh];B[kh];W[lg];B[jn];W[do];B[cl];W[ij];B[gk];W[bl]
;B[cm];W[hk];B[jk];W[lo];B[hi];W[hm];B[gk];W[bm];B[cn];W[hk]
;B[il];W[cq];B[bq];W[ii];B[sm];W[jo];B[kn];W[fq];B[ep];W[cj]
;B[bk];W[er];B[cr];W[gr];B[gk];W[fj];B[ko];W[kp];B[hr];W[jr]
;B[nh];W[mh];B[mk];W[bb];B[da];W[jh];B[ic];W[id];B[hb];W[jb]
;B[oj];W[fn];B[fs];W[fr];B[gs];W[es];B[hs];W[gn];B[kr];W[is]
;B[dr];W[fi];B[bj];W[hd];B[gd];W[ln];B[lm];W[oi];B[oh];W[ni]
;B[pi];W[ki];B[kj];W[ji];B[so];W[rq];B[if];W[jf];B[hh];W[hf]
;B[he];W[ie];B[hg];W[ba];B[ca];W[sp];B[im];W[sn];B[rm];W[pe]
;B[qf];W[if];B[hk];W[nj];B[nk];W[lr];B[mn];W[af];B[ag];W[ch]
;B[bh];W[lp];B[ia];W[ja];B[ha];W[sf];B[sg];W[se];B[eh];W[fh]
;B[in];W[ih];B[ae];W[so];B[af]"

把它转换成一个矩阵:

str = gsub("\\n", "", str)
step = strsplit(str, ";")[[1]]
type = gsub("(B|W).*", "\\1", step)
row = gsub("(B|W)\\[(.).\\]", "\\2", step)
column = gsub("(B|W)\\[.(.)\\]", "\\2", step)

go_mat = matrix(nrow = 19, ncol = 19)
rownames(go_mat) = letters[1:19]
colnames(go_mat) = letters[1:19]
for(i in seq_along(row)) {
    go_mat[row[i], column[i]] = type[i]
}
go_mat[1:4, 1:4]
> go_mat[1:4, 1:4]
  a   b   c   d  
a NA  NA  NA  "W"
b "W" "W" "W" "B"
c "B" "B" "W" "W"
d "B" "W" "B" "W"

黑色和白色的棋子是根据矩阵中的值摆放的:

Heatmap(go_mat, name = "go", rect_gp = gpar(type = "none"),
    cell_fun = function(j, i, x, y, w, h, col) {
        grid.rect(x, y, w, h, gp = gpar(fill = "#dcb35c", col = NA))
        if(i == 1) {
            grid.segments(x, y-h*0.5, x, y)
        } else if(i == nrow(go_mat)) {
            grid.segments(x, y, x, y+h*0.5)
        } else {
            grid.segments(x, y-h*0.5, x, y+h*0.5)
        }
        if(j == 1) {
            grid.segments(x, y, x+w*0.5, y)        
        } else if(j == ncol(go_mat)) {
            grid.segments(x-w*0.5, y, x, y)
        } else {
            grid.segments(x-w*0.5, y, x+w*0.5, y)
        }

        if(i %in% c(4, 10, 16) & j %in% c(4, 10, 16)) {
            grid.points(x, y, pch = 16, size = unit(2, "mm"))
        }
                
        r = min(unit.c(w, h))*0.45
        if(is.na(go_mat[i, j])) {
        } else if(go_mat[i, j] == "W") {
            grid.circle(x, y, r, gp = gpar(fill = "white", col = "white"))
        } else if(go_mat[i, j] == "B") {
            grid.circle(x, y, r, gp = gpar(fill = "black", col = "black"))
        }
    },
    col = c("B" = "black", "W" = "white"),
    show_row_names = FALSE, show_column_names = FALSE,
    column_title = "One famous GO game",
    heatmap_legend_param = list(title = "Player", at = c("B", "W"), 
        labels = c("player1", "player2"), border = "black")
)
singleheatmap_77

2.7.2 layer_fun

cell_fun按单元格添加图形,而layer_fun以块的方式添加图形。与cell_fun类似,layer_fun也需要7个参数,但它们都是向量形式:

#参数演示
Heatmap(..., layer_fun = function(j, i, x, y, w, h, fill) {...})
Heatmap(..., layer_fun = function(J, I, X, Y, W, H, F) {...})
Heatmap(small_mat, name = "mat", col = col_fun,
    row_km = 2, column_km = 2,
    layer_fun = function(j, i, x, y, w, h, fill) {
        ind_mat = restore_matrix(j, i, x, y)
        ind = unique(c(ind_mat[2, ], ind_mat[, 3]))
        grid.points(x[ind], y[ind], pch = 16, size = unit(4, "mm"))
    }
)
singleheatmap_78

2.8 热图大小

width, heatmap_width, heightheatmap_height控制热图的大小。默认情况下,所有热图组件都有固定的宽度或高度,例如,行树状图的宽度是1cm

heatmap_widthheatmap_height控制包括所有热图组件(图例除外)在内的完整热图的宽度/高度,而widthheight仅控制热图主体的宽度/高度。所有这四个参数都可以设置为绝对单位。

Heatmap(mat, name = "mat", width = unit(8, "cm"), height = unit(8, "cm"))
Heatmap(mat, name = "mat", heatmap_width = unit(8, "cm"), heatmap_height = unit(8, "cm"))

2.9 热图子集

ht = Heatmap(mat, name = "mat")
dim(ht)
> dim(ht)
[1] 18 24
ht[1:10, 1:10]

注释也相应地进行了细分。

ht = Heatmap(mat, name = "mat", row_km = 2, column_km = 3,
    col = colorRamp2(c(-2, 0, 2), c("green", "white", "red")),
    top_annotation = HeatmapAnnotation(foo1 = 1:24, bar1 = anno_points(runif(24))),
    right_annotation = rowAnnotation(foo2 = 18:1, bar2 = anno_barplot(runif(18)))
)
ht[1:9*2 - 1, 1:12*2] # 奇数行,偶数列
singleheatmap_80

往期内容:

使用ComplexHeatmap绘制复杂热图|Note1:简介

你可能感兴趣的:(使用ComplexHeatmap绘制复杂热图|Note2:单个热图(万字超详细教程))