准备工作
①R需更新至最新版:先在RGui中更新,再在R中点击工具栏Tools→Global Options→Change选择刚刚安装好的新版本R。
install.packages("installr")
library("installr")
updateR()
②导入所需R包:
library("dplyr")
library("ggplot2")
library("datasauRus")
【数据处理】:
- View()函数,查看R包datasauRus的数据。
datasaurus_dozen %>% View()
- str()函数,查看数据框中的变量和变量类型。
str(datasaurus_dozen)
- unique()函数,返回一个把重复元素或行给删除的向量。查看数据框中dataset列有几个不同的元素。
unique(datasaurus_dozen$dataset)
- 从datasaurus_dozen数据框中,按不同dataset分组,求每个分组x和y的平均值、方差、协方差数据。
datasaurus_dozen%>%
group_by(dataset)`%>%
summarize(
mean_x=mean(x),
mena_y=mean(y),
std_dev_x=sd(x),
std_dev_y=sd(y),
corr_x_y=cor(x,y))
【画图】
- 按照dataset不同类别以颜色分类画分页散点图。
datasaurus_dozen%>%
ggplot(aes(x,y,color=dataset)) +
geom_point() +
facet_wrap(`~dataset`)
- 添加主题和背景
ggplot(datasaurus_dozen, aes(x=x, y=y,colour=dataset))+ geom_point()+
theme_void()+
theme(legend.position = "none")`+
facet_wrap(~dataset, ncol=3)
- coord_系列函数可以改变xy轴的位置,只影响图形展示,不影响内部数据值。
默认 coord_cartesian(xlim = NULL, ylim = NULL, expand = TRUE)
coord_cartesian 默认情况,指定参数则控制图形特定区域放大显示
coord_fixed 图形伸缩变换
coord_flip 横纵坐标位置转换
coord_polar 弯曲横纵坐标(画饼图可以用)
coord_map 将地图变成球状展示(这个我们以后讲到地图再专门说)
coord_trans 转化数据
- 画饼图,用diamonds数据集以cut为横轴画柱状图并弯曲横纵坐标为饼图:
diamonds %>%
ggplot(aes(cut,fill=cut))+
geom_bar()+
coord_polar()
diamonds %>%
ggplot(aes(cut,fill=cut))+
geom_bar()+
coord_polar(theta="y") `
- data()函数,查看数据集:
data(gapminder)
- seq(from,to,length),生成一组数字从from开始到to结束,每两个数间的间隔是length:
years <-seq(1962,2013)
- filter( )函数 ,按值筛选观测,选取出x是y中的一个值时的所有行,等同于 x %in% y。
m<-filter(flights,month==11|month==12)
m<-filter(flights,month%in%c(11,12))
- mutate( )函数,使用现有变量的函数创建新变量(新列是现有列的函数,mutate将新列添加在数据集的最后)。
gapminder2 <-filter(gapminder,
year %in% years &!
is.na(region) & !
is.na(fertility) & !
is.na(life_expectancy)) %>%
mutate(population_in_millions=population/10^6)
- 展示合适的数据量,使图片更为直观。如:
diamonds %>% ggplot(aes(carat,price))+
geom_point()
- 数据量大,图不直观,增加透明度 alpha、随机抽取 sample。
sample()函数:sample(x=data,size=5,replace=T)
x<-sample_n(diamonds,5000)
x %>% ggplot(aes(carat,price))+
geom_point(alpha=0.1)
【动态图】
导入所需包:
library(dslabs)
library(gganimate)
library("gifski")
library("png")
例:人均寿命预期与生育率动图
p<-gapminder2 %>% ggplot(aes(fertility,y=life_expectancy,col=region,
size=population_in_millions) )+
geom_point(shape=16)+
guides(size=FALSE)+
theme(legend.title=element_blank() )+
coord_cartesian(ylim=c(30,85))+
labs(title={frame_time}年', x='生育率', y='人均寿命预期')+
transition_time(year)+
ease_aes('linear')
p