笔记说明

tidyr包是一个用于整理数据结构的r包，也是tidyverse的核心包之一。
本次笔记介绍tidy data、长数据、宽数据的相关概念以及用于长数据、宽数据相互转换的函数。

推荐阅读：
关于tidyr包：https://tidyr.tidyverse.org/
关于tidy data: https://tidyr.tidyverse.org/articles/tidy-data.html
tidy data论文：https://vita.had.co.nz/papers/tidy-data.html
关于长宽数据转换操作：https://tidyr.tidyverse.org/articles/pivot.html

长数据、宽数据

同样的数据内容可以以不同的数据结构呈现在数据集中。
我们用tidyr包自带的示例数据集table4a来说明。
数据集table4a中的数据为三个国家1999和2000年的结核病例数

# 加载包
library(tidyr)
library(dplyr)
table4a

table4a

## # A tibble: 3 x 3
##   country     `1999` `2000`
## *           
## 1 Afghanistan    745   2666
## 2 Brazil       37737  80488
## 3 China       212258 213766

为方便演示说明，我们新添一列2001年的数据（杜撰）：

table_wide <- table4a %>%
  mutate(`2001` = `1999` + `2000`)

## # A tibble: 3 x 4
##   country     `1999` `2000` `2001`
##               
## 1 Afghanistan    745   2666   3411
## 2 Brazil       37737  80488 118225
## 3 China       212258 213766 426024

同样的数据内容，还可以按下面的数据结构来组成数据集table_long：

## # A tibble: 9 x 3
##   country     year    case
##            
## 1 Afghanistan 1999     745
## 2 Afghanistan 2000    2666
## 3 Afghanistan 2001    3411
## 4 Brazil      1999   37737
## 5 Brazil      2000   80488
## 6 Brazil      2001  118225
## 7 China       1999  212258
## 8 China       2000  213766
## 9 China       2001  426024

像table_wide这样，（同样数据内容下）变量多观测少，通过ID（区分不同研究对象的变量，这里即为country变量）值和变量名来定位数据值的数据结构称为宽数据（wide format）
像table_long这样，（同样数据内容下）变量少观测多，通过ID值和类别变量（这里即为year变量）值来定位数据值的数据结构为长数据（long format）

有些数据分析方法需要数据为宽数据，而有些数据分析方法则要求数据为长数据。因此对数据结构进行变换也是统计分析的基本功。另外，长数据一般来说更方便进行数据录入以及数据比较。

tidy data和messy data

tidy data是Hadley Wickham提出的一种结构化的数据集形式，它要求数据集满足下列条件：

Each variable forms a column. 每个变量形成一列
Each observation forms a row. 每个观测形成一行
Each type of observational unit forms a table. 每种类型的观测的单元形成一张表

所有不满足tidy data条件的数据集都是messy data。所谓tidy data全都相似，而messy data各有不同。违背tidy data条件的最常见的几种情形：

Column headers are values, not variable names.
Multiple variables are stored in one column.
Variables are stored in both rows and columns.
Multiple types of observational units are stored in the same table.
A single observational unit is stored in multiple tables.

第一种情形：Column headers are values, not variable names.列名是变量值而不是变量名。需要对数据进行宽数据向长数据的转换以变为tidy data。以刚才展示的table_wide和table_long为例，table_long符合tidy data的要求，而table_wide就是messy data，因为它的列名1999 2000 2001应该视为变量值而非变量名。
实际中区分列名是变量值还是变量名有时候是比较模糊的。可以结合不同列是否横向可加来判断，如果横向可加则考虑列名是变量值。
第二种情形：Multiple variables are stored in one column.多个变量存储于同一列。需要对数据进行长数据向宽数据的转换以变为tidy data。例如：

## # A tibble: 4 x 3
##      id variable vlaue
##        
## 1     1 身高       170
## 2     1 体重        65
## 3     2 身高       178
## 4     2 体重        73

该数据中value列其实包含了身高、体重两个变量的值。判断一列内是否存在多个变量，可以结合该列是否纵向可加来判断，如果不可加则考虑存在多个变量。

用pivot_longer()将宽数据转为长数据

pivot_longer()使宽数据转换为长数据。其简要用法为：

pivot_longer(data, cols, names_to = "name", values_to = "value")

data即为需要进行数据结构转化的数据集
col指定进行转化的列，在select()函数中可以帮助指定列的"select helper"在这里也适用，可以使用负号“-”表示反向选择。
names_to：col指定的那些列的列名会组成一个新的变量，names_to指定该新变量的变量名
values_to：col指定的那些列的变量值会组成一个新的变量，values_to指定该新变量的变量名

举例：把table_wide转变为table_long：

## # A tibble: 3 x 4
##   country     `1999` `2000` `2001`
##               
## 1 Afghanistan    745   2666   3411
## 2 Brazil       37737  80488 118225
## 3 China       212258 213766 426024

table_long <- table_wide %>% 
  pivot_longer(cols = -country, names_to = "year", values_to = "case")

## # A tibble: 9 x 3
##   country     year    case
##            
## 1 Afghanistan 1999     745
## 2 Afghanistan 2000    2666
## 3 Afghanistan 2001    3411
## 4 Brazil      1999   37737
## 5 Brazil      2000   80488
## 6 Brazil      2001  118225
## 7 China       1999  212258
## 8 China       2000  213766
## 9 China       2001  426024

pivot_longer()与gather()

pivot_longer()函数是之前的版本中gather()函数的改良。虽然新版本仍然保留了gather()函数，但建议写新代码时使用pivot_longer()而不是gather()
对于使用过gather()的用户，以下两条代码是等价的。

df %>% gather("key", "value", x, y, z)

df %>% pivot_longer(c(x, y, z), names_to = "key", values_to = "value")

用pivot_wider()将长数据转为宽数据

pivot_wider()使长数据转换为宽数据。其简要用法为：

pivot_wider(data, id_cols = NULL, names_from = name,values_from = value,)

data即为需要进行数据结构转化的数据集
id_cols指定用什么变量来识别不同观测。不指定时默认用除names_from和values_from所指定变量之外的所有变量来识别不同观测。
names_from指定新数据集中展开的各新变量的变量名由旧数据集的哪个（或哪些）变量得到
values_from指定新数据集中展开的各新变量的变量值由旧数据的哪个（或哪些）得到。如果指定了多个值，则会求和得到新变量值。
举例：将table_long变回宽数据：

table_long %>% pivot_wider(id_cols = country, names_from = year, values_from = case)

(实际上id_cols可以不写，我个人习惯写一下)

## # A tibble: 3 x 4
##   country     `1999` `2000` `2001`
##               
## 1 Afghanistan    745   2666   3411
## 2 Brazil       37737  80488 118225
## 3 China       212258 213766 426024

pivot_wider()与spread()

pivot_wider()函数是之前的版本中spread()函数的改良。虽然新版本仍然保留了spread()函数，但建议写新代码时使用pivot_wider()而不是spread()
对于使用过spread()的用户，以下两条代码是等价的。

df %>% spread(key, value)

df %>% pivot_wider(names_from = key, values_from = value)

用tidyr包进行长数据和宽数据的相互转换