公众号原文点我
气泡图是散点图的一种变体,一般的散点图反映的是两个连续变量之间的关系。而气泡图通常可以反映三个变量之间的关系,第三个变量一般体现在气泡的大小。当然,如果赋予气泡不同的颜色,那么也可利用其反映四个变量之间的关系。
在实际使用中,气泡图常用于展示基因富集分析的结果。本期使用R包gapminder中现有数据集,基于ggplot2制作气泡图
在加载数据并对数据进行简单的筛选后,很容易做出一个简单的气泡图:
#加载相关包
library(ggplot2)
library(dplyr)
#install.packages("gapminder")
library(gapminder)
#简单的数据筛选,筛选去year=2007的数据,同时将"year"一列删除
data <- gapminder %>% filter(year=="2007") %>% dplyr::select(-year)
#基本的气泡图
bp1 = ggplot(data, aes(x=gdpPercap, y=lifeExp, size = pop)) +
geom_point(alpha=0.7)
#size = pop ,表示用数据中的pop值来表示气泡的大小
在此基础上,我们只需要增加亿点点细节,就可以得到如下的图像:
#加载相关包
library(ggplot2)
library(dplyr)
library(hrbrthemes)
library(viridis)
library(ggrepel)
#此处对数据做了简单处理,将pop统一缩小;把数据按pop(气泡大小)降序可以避免大圈出现在图像s行方
tmp_data <- data %>%
mutate(pop=pop/1000000) %>%
arrange(desc(pop)) %>%
mutate(country = factor(country, country))
bp2 <- ggplot(tmp_data, aes(x = gdpPercap, y=lifeExp, size = pop, color = continent)) +
geom_point(alpha=0.5) +
scale_size(range = c(1.5, 20), name="Population (M)") +
scale_color_viridis(discrete=TRUE) +
theme_ipsum() +
theme(
legend.position = c(1, 0),
legend.justification = c(1, 0))+
geom_text_repel(data = tmp_data, aes(label=country), size=3) #安装country给所有气泡加注释
上图中,我们为所有气泡增加了注释,但似乎观感并不好。我们可以有选择的为部分感兴趣的气泡加注释。如果将代码
tmp_data <- data %>%
mutate(pop=pop/1000000) %>%
arrange(desc(pop)) %>%
mutate(country = factor(country, country))
#及
geom_text_repel(data = tmp_data, aes(label=country), size=3)
改为:
#筛选感兴趣的数据,并为其加注释
tmp_data <- data %>%
mutate(
annotation = case_when(
gdpPercap > 5000 & lifeExp < 60 ~ "yes",
lifeExp < 30 ~ "yes",
gdpPercap > 40000 ~ "yes")
) %>%
mutate(pop=pop/1000000) %>%
arrange(desc(pop)) %>%
mutate(country = factor(country, country))
#及
geom_text_repel(data=tmp_data %>% filter(annotation=="yes"), aes(label=country), size=3 )
可以得到下图:
在此基础上,我们可以根据需要修改气泡的大小、配色方案等,以制作出所需气泡图
在上期散点图(1)— 基础散点图中,我们复现了Nature Communications文章中的一幅散点图,并给出了完整代码。实际上,该文章中还使用了如下的散点图,在此我们补充给出复现代码
library(ggplot2)
cols <- c("#E69F00", "#56B4E9", "#009E73", "#F0E442", "#0072B2", "#D55E00", "#CC79A7")
#fig2:
crass_impact <- read.table("crass_impact.txt")
p = ggplot(crass_impact, aes(x = rel_crAss, y = rel_res, color = country)) +
geom_smooth(method = "lm") +
geom_point(aes(shape = crAss_detection), size =9 ) +
scale_x_log10() +
scale_y_log10() +
theme_classic() +
labs(y = "Normalized ARG abundance", x="Normalized crAssphage abundance",
color = "Study", shape = "crAssphage detection") + scale_colour_manual(values = cols)
library(ggplot2)
crass_wwtp <- read.table("crass_wwtp.txt")
p4 <- ggplot(crass_wwtp, aes(rel_crAss, rel_res, color = country_wwtp)) +
geom_smooth(method = "lm") +
geom_point(size = 8) +
scale_x_log10() +
scale_y_log10() +
theme_classic() +
scale_colour_manual(values = cols) +
labs(y = "Normalized ARG abundance", x="Normalized crAssphage abundance",
color = "Country:WWTP")+
theme(
legend.position = c(0.1, 1),
legend.justification = c(0.1, 1)) #注意,此处的刻度并非实际途中标尺刻度;可以理解为绘图区域为一个1x1的坐标系,0.5x0.5为中心点
以上使用到的数据集,均可在散点图(1)— 基础散点图文中提供的链接中获取
参考:
欢迎关注公众号:生信小书生
定期分享各类生信知识、技能