一起学画图:气泡图—常用于富集分析

公众号原文点我

Part 1 :气泡图

气泡图是散点图的一种变体,一般的散点图反映的是两个连续变量之间的关系。而气泡图通常可以反映三个变量之间的关系,第三个变量一般体现在气泡的大小。当然,如果赋予气泡不同的颜色,那么也可利用其反映四个变量之间的关系。

在实际使用中,气泡图常用于展示基因富集分析的结果。本期使用R包gapminder中现有数据集,基于ggplot2制作气泡图

Part 2 :图像与代码

在加载数据并对数据进行简单的筛选后,很容易做出一个简单的气泡图:

一起学画图:气泡图—常用于富集分析_第1张图片

#加载相关包
library(ggplot2)
library(dplyr)
#install.packages("gapminder") 
library(gapminder)

#简单的数据筛选,筛选去year=2007的数据,同时将"year"一列删除
data <- gapminder %>% filter(year=="2007") %>% dplyr::select(-year)
#基本的气泡图
bp1 = ggplot(data, aes(x=gdpPercap, y=lifeExp, size = pop)) +
  geom_point(alpha=0.7)
#size = pop ,表示用数据中的pop值来表示气泡的大小

在此基础上,我们只需要增加亿点点细节,就可以得到如下的图像:

一起学画图:气泡图—常用于富集分析_第2张图片

#加载相关包
library(ggplot2)
library(dplyr)
library(hrbrthemes)
library(viridis)
library(ggrepel)
#此处对数据做了简单处理,将pop统一缩小;把数据按pop(气泡大小)降序可以避免大圈出现在图像s行方
tmp_data <- data %>%
  mutate(pop=pop/1000000) %>% 
  arrange(desc(pop)) %>%
  mutate(country = factor(country, country))
bp2 <- ggplot(tmp_data, aes(x = gdpPercap, y=lifeExp, size = pop, color = continent)) +
  geom_point(alpha=0.5) +
  scale_size(range = c(1.5, 20), name="Population (M)") +
  scale_color_viridis(discrete=TRUE) +
  theme_ipsum() +
  theme(
    legend.position = c(1, 0),
    legend.justification = c(1, 0))+
  geom_text_repel(data = tmp_data, aes(label=country), size=3) #安装country给所有气泡加注释

上图中,我们为所有气泡增加了注释,但似乎观感并不好。我们可以有选择的为部分感兴趣的气泡加注释。如果将代码

tmp_data <- data %>%
  mutate(pop=pop/1000000) %>% 
  arrange(desc(pop)) %>%
  mutate(country = factor(country, country))
  
  #及
   geom_text_repel(data = tmp_data, aes(label=country), size=3)

改为:

#筛选感兴趣的数据,并为其加注释
tmp_data  <- data %>%
  mutate(
    annotation = case_when(
      gdpPercap > 5000 & lifeExp < 60 ~ "yes",
      lifeExp < 30 ~ "yes",
      gdpPercap > 40000 ~ "yes")
        ) %>%
  mutate(pop=pop/1000000) %>%
  arrange(desc(pop)) %>%
  mutate(country = factor(country, country))
  
  #及
  geom_text_repel(data=tmp_data %>% filter(annotation=="yes"), aes(label=country), size=3 )

可以得到下图:

一起学画图:气泡图—常用于富集分析_第3张图片

在此基础上,我们可以根据需要修改气泡的大小、配色方案等,以制作出所需气泡图

在上期散点图(1)— 基础散点图中,我们复现了Nature Communications文章中的一幅散点图,并给出了完整代码。实际上,该文章中还使用了如下的散点图,在此我们补充给出复现代码

一起学画图:气泡图—常用于富集分析_第4张图片

library(ggplot2)
cols <- c("#E69F00", "#56B4E9", "#009E73", "#F0E442", "#0072B2", "#D55E00", "#CC79A7")
#fig2:
crass_impact <- read.table("crass_impact.txt")
p = ggplot(crass_impact, aes(x = rel_crAss, y = rel_res, color = country)) + 
  geom_smooth(method = "lm") + 
  geom_point(aes(shape = crAss_detection), size =9 ) + 
  scale_x_log10() + 
  scale_y_log10() + 
  theme_classic() +
  labs(y = "Normalized ARG abundance", x="Normalized crAssphage abundance", 
       color = "Study", shape = "crAssphage detection") + scale_colour_manual(values = cols)

一起学画图:气泡图—常用于富集分析_第5张图片

library(ggplot2)
crass_wwtp <- read.table("crass_wwtp.txt")
p4 <- ggplot(crass_wwtp, aes(rel_crAss, rel_res, color = country_wwtp)) + 
  geom_smooth(method = "lm") + 
  geom_point(size = 8) + 
  scale_x_log10() + 
  scale_y_log10() + 
  theme_classic() + 
  scale_colour_manual(values = cols) + 
  labs(y = "Normalized ARG abundance", x="Normalized crAssphage abundance", 
       color = "Country:WWTP")+
  theme(
    legend.position = c(0.1, 1),
    legend.justification = c(0.1, 1)) #注意,此处的刻度并非实际途中标尺刻度;可以理解为绘图区域为一个1x1的坐标系,0.5x0.5为中心点

以上使用到的数据集,均可在散点图(1)— 基础散点图文中提供的链接中获取

参考:

  • https://www.data-to-viz.com/

欢迎关注公众号:生信小书生
定期分享各类生信知识、技能

你可能感兴趣的:(生物信息学,生物信息,r语言,数据分析)