R语言绘图-1-火山图

0. 简介:

火山图:一种表示特征差异表达的散点图。以基因的差异表达为例:x轴对应fold change,y轴对应p-value

1. 绘图数据

https://gist.github.com/stephenturner/806e31fce55a8b7175af

前10行数据如下:
R语言绘图-1-火山图_第1张图片

2. 绘图代码

2.1 数据处理

library(ggrepel)
library(ggplot2)

data_source <- read.table('C:\\Users\\Admin\\Desktop\\results.txt',header=TRUE)
# 更改data_source的列名称。
names(data_source) = c('Gene','log2FC','p_value','padj')
# 向data_Source中添加一列‘diffexpressed’,用作基因表达上下调的标签。
# 可以自定义上下调的界定界限
data_source$diffexpressed = 'No'
data_source$diffexpressed[data_source$log2FC > 0.6 & data_source$p_value < 0.05] = 'Up'
data_source$diffexpressed[data_source$log2FC < -0.6 & data_source$p_value < 0.05] = 'Down'
# 创建一个颜色标签表格,用于设置上下调基因的显色。
define_color = c('Red','Gray','Blue')
names(define_color) = c('Up','No','Down')
# 向data_source中添加一列'tags',用于显示所有上调和下调基因的名称。
data_source$tags = NA
data_source$tags[data_source$diffexpressed != 'No'] = data_source$Gene[data_source$diffexpressed != 'No']
# 在火山图中将某几个特定的基因显示出来
specific_label = subset(data_source, data_source$Gene %in% c('TBX5','SLC32A1','POU3F4'))

2.2 绘制图片

2.2.1 显示图片1(包含全部基因名称,但是由于名称过过多,只能显示出一部分)

P1 <- ggplot(data=data_source, aes(x=log2FC,y=-log10(p_value),col=diffexpressed)) +
  geom_point() +
  # scale_color_manual(),用于显示上下调基因的颜色。
  scale_color_manual(values = define_color) +
  # geom_text_repel(),用于将基因名称带上指示线显示出来。
  geom_text_repel(label=data_source$tags) +
  # geom_vline()和geom_hline(),用于绘制显示上下调基因界限的辅助线,线型为虚线。
  geom_vline(xintercept = c(-0.6,0.6),color='red',linetype='dashed') +
  geom_hline(yintercept = -log10(0.05),color='red',linetype='dashed') +
  # theme_minimal(),用于设置图片背景主题。
  theme_minimal()

结果1:

R语言绘图-1-火山图_第2张图片

2.2.2 显示图片2(只标注特定的基因名称)

p2 <- ggplot(data=data_source, aes(x=log2FC,y=-log10(p_value),col=diffexpressed)) +
  geom_point() +
  # scale_color_manual(),用于显示上下调基因的颜色。
  scale_color_manual(values = define_color) +
  # geom_text_repel(),用于将基因名称带上箭头显示出来。
  geom_text_repel(data=specific_label,
                  label=specific_label$tags,
                  box.padding=unit(7, "lines"),
                  point.padding=unit(3, "lines"), 
                  segment.color = "green", 
                  segment.size = 1, 
                  arrow = arrow(length=unit(0.01, "npc"))) +
  # geom_vline()和geom_hline(),用于绘制显示上下调基因界限的辅助线,线型为虚线。
  geom_vline(xintercept = c(-0.6,0.6),color='red',linetype='dashed') +
  geom_hline(yintercept = -log10(0.05),color='red',linetype='dashed') +
  # theme_minimal(),用于设置图片背景主题。
  theme_minimal()

结果2:

R语言绘图-1-火山图_第3张图片

3. 参考资料

[1]. https://www.r-bloggers.com/2014/05/using-volcano-plots-in-r-to-visualize-microarray-and-rna-seq-results/#google_vignette

[2]. https://biocorecrg.github.io/CRG_RIntroduction/volcano-plots.html

你可能感兴趣的:(R语言,数据可视化)