【ggplot2绘图二:散点图】

2021.4.23
持续更新中。。。

参考:《R数据可视化手册》、学术数据分析及可视化

1. 理解数据与图层

library(ggplot2)
set.seed(999)
diamonds <- diamonds[sample(1:53940, 5000, replace = F),]
#数据写在底层,则对后续所有图层有效
ggplot(diamonds, aes(carat, price, color = cut)) +
  geom_point(shape = 18)
#数据写在单一图层在,则只对该图层有效
ggplot() +
  geom_point(data = diamonds, aes(carat, price, color = cut), shape = 18)

数据在初始图层ggplot()中定义时,对后续所有图层有效,当多组数据时,可在每个图层分别定义数据


2. 简单散点图

library(ggplot2)
library(tidyr)

df <- iris
#修改表头
colnames(df) <- c('SepalL','SepalW','PetalL','PetalW','Species')
#宽数据变长数据
df <- gather(df, Index, Value, -Species)
#将Index和Value变量映射x轴和y轴,同时将Species分类变量映射颜色和形状
ggplot(df, aes(Index, Value, color = Species, shape = Species))+
  #设置点的大小,透明度,类型
  geom_point(size = 3, alpha = .5, shape = 18)+
  #设置每个点的文本,去重复,文本位置
  geom_text(aes(label = Species), check_overlap = TRUE, vjust=4, hjust=0)
##添加单个标签文本
##annotate('text', x = 6, y = 7.5, label = 'Scatter plot with a linear fit line',
##         color = 'red', fontface = 'italic')

  1. 映射给颜色或大小的变量是分类变量时,则是对数据进行分组;若映射的是连续性变量,则是一个渐变过程。
  2. scale_shape_manual()scale_color_brewer函数可以后续自定义图形和颜色。scale_color_brewer()调色盘选择:https://www.datavis.ca/sasmac/brewerpal.html

3. 散点图 +拟合线

3.1 线性拟合

ggplot(iris, aes(Sepal.Length, Petal.Length))+
  geom_point()+
  #设置拟合线是否显示置信域,颜色,大小和类型
  geom_smooth(method = 'lm', formula = y ~ x, se = F, 
              color = 'red', size = 2, linetype = 3)
##若要虚化拟合线,需要换一个函数
##geom_line(stat = 'smooth', method = 'lm', se = F,
##         color = 'red', size = 2, linetype = 6, alpha = .2)
  1. 可选的形状和线型:
    形状和线型
  2. color参数设置在aes()之外,则所有的变量都设置成一个颜色,而在aes()之内,会给不同的因子或者数值上色
  3. 模型除了y ~ x之外,也可以用y ~ log(x)y ~ poly(x, 2)y ~ poly(x, 3)等多项式

3.2 添加新构建模型的拟合线

思路:首先创建回归模型,然后根据模型计算变量和预测值的大小,最后绘制回归线即可。

library(ggplot2)
library(gcookbook)
rm(list=ls())
#用lm()函数创建回归模型
model <-  lm(heightIn ~ ageYear + I(ageYear^2), heightweight)
#创建包含变量ageYear最小值和最大值的列
xmin <-  min(heightweight$ageYear)
xmax <-  max(heightweight$ageYear)
predicted <-  data.frame(ageYear=seq(xmin, xmax, length.out=100))
#计算变量heightIn的预测值,之后predicted包含两个变量ageYear和heightln
predicted$heightIn <-  predict(model, predicted)

#绘制点图
p <- ggplot(heightweight, aes(x=ageYear, y=heightIn)) +
     geom_point()+
#添加回归曲线
     geom_line(data=predicted, size=1)

4. 绘制两组来自不同数据的点图

library(tidyr)
library(ggplot2)
df <- iris
head(df)
#修改表头
colnames(df) <- c('SpealL', 'SpepalW', 'PetalL', 'PetalW', 'Species')
#宽数据变长数据
df <- gather(df, Index, Value, -Species)
df

ggplot()+
  geom_point(data = df, aes(Species, Value, color =Index))+
  geom_point(data = iris, aes(Species, Sepal.Width, color = Species))

绘制多组不同数据时ggplot()不接任何参数,后续绘图函数调用参数data =分别指明具体的数据名。


5. 气泡图

ggplot(mtcars, aes(wt, mpg, color = factor(cyl)))+
  #将cyl影射给大小
  geom_point(aes(size = cyl))+
  #添加坐标
  scale_size(breaks = c(4,6,8))

你可能感兴趣的:(【ggplot2绘图二:散点图】)