数据可视化——图表

准备工作

①R需更新至最新版:先在RGui中更新,再在R中点击工具栏Tools→Global Options→Change选择刚刚安装好的新版本R。

install.packages("installr")
library("installr")
updateR()

②导入所需R包:

library("dplyr")
library("ggplot2")
library("datasauRus")

【数据处理】:

  • View()函数,查看R包datasauRus的数据。
datasaurus_dozen %>% View()
  • str()函数,查看数据框中的变量和变量类型。
str(datasaurus_dozen)
  • unique()函数,返回一个把重复元素或行给删除的向量。查看数据框中dataset列有几个不同的元素。
unique(datasaurus_dozen$dataset)
  • 从datasaurus_dozen数据框中,按不同dataset分组,求每个分组x和y的平均值、方差、协方差数据。
 datasaurus_dozen%>%
  group_by(dataset)`%>%
  summarize(
    mean_x=mean(x),
    mena_y=mean(y),
    std_dev_x=sd(x),
    std_dev_y=sd(y),
corr_x_y=cor(x,y))

【画图】

  • 按照dataset不同类别以颜色分类画分页散点图。
datasaurus_dozen%>%  
ggplot(aes(x,y,color=dataset)) +  
geom_point() +  
facet_wrap(`~dataset`)
  • 添加主题和背景
ggplot(datasaurus_dozen, aes(x=x, y=y,colour=dataset))+  geom_point()+  
theme_void()+  
theme(legend.position = "none")`+  
facet_wrap(~dataset, ncol=3)
  • coord_系列函数可以改变xy轴的位置,只影响图形展示,不影响内部数据值。
默认 coord_cartesian(xlim = NULL, ylim = NULL, expand = TRUE)

coord_cartesian 默认情况,指定参数则控制图形特定区域放大显示
coord_fixed 图形伸缩变换
coord_flip 横纵坐标位置转换
coord_polar 弯曲横纵坐标(画饼图可以用)
coord_map 将地图变成球状展示(这个我们以后讲到地图再专门说)
coord_trans 转化数据

  • 画饼图,用diamonds数据集以cut为横轴画柱状图并弯曲横纵坐标为饼图:
diamonds %>%
 ggplot(aes(cut,fill=cut))+
 geom_bar()+
coord_polar() 

diamonds %>%
     ggplot(aes(cut,fill=cut))+
     geom_bar()+
    coord_polar(theta="y") `
  • data()函数,查看数据集:
data(gapminder)
  • seq(from,to,length),生成一组数字从from开始到to结束,每两个数间的间隔是length:
years <-seq(1962,2013)
  • filter( )函数 ,按值筛选观测,选取出x是y中的一个值时的所有行,等同于 x %in% y。
m<-filter(flights,month==11|month==12)
m<-filter(flights,month%in%c(11,12))
  • mutate( )函数,使用现有变量的函数创建新变量(新列是现有列的函数,mutate将新列添加在数据集的最后)。
gapminder2 <-filter(gapminder,
     year %in% years &!
            is.na(region) & !
              is.na(fertility) & !
              is.na(life_expectancy)) %>%
mutate(population_in_millions=population/10^6)  
  • 展示合适的数据量,使图片更为直观。如:
diamonds %>% ggplot(aes(carat,price))+
            geom_point()
  • 数据量大,图不直观,增加透明度 alpha、随机抽取 sample。
sample()函数:sample(x=data,size=5,replace=T)

x<-sample_n(diamonds,5000)
x %>% ggplot(aes(carat,price))+
     geom_point(alpha=0.1)

【动态图】

导入所需包:

library(dslabs)

library(gganimate)
library("gifski")
library("png")

例:人均寿命预期与生育率动图

p<-gapminder2 %>% ggplot(aes(fertility,y=life_expectancy,col=region,
                                size=population_in_millions) )+
                     geom_point(shape=16)+ 
                    guides(size=FALSE)+ 
                    theme(legend.title=element_blank() )+ 
                   coord_cartesian(ylim=c(30,85))+   
    labs(title={frame_time}年', x='生育率', y='人均寿命预期')+    
   transition_time(year)+  
   ease_aes('linear')
p

你可能感兴趣的:(数据可视化——图表)