笔记说明
在R中,分类变量一般以因子(factor)的形式存在。forcats
包是一个专门用于处理因子(factor)的r包,现在也成为了tidyverse
的核心包之一。
本次笔记介绍处理因子的一些函数,不全都是forcats
包里的。
笔记中很多内容来自https://b-rodrigues.github.io/modern_R/descriptive-statistics-and-data-manipulation.html#section
推荐阅读:
关于factor:https://r4ds.had.co.nz/factors.html
关于forcats包:https://cran.r-project.org/web/packages/forcats/vignettes/forcats.html
用factor()生成因子
factor()
是R自带的函数,用于生成因子。例如:sex_raw是表示性别的变量,,0代表女性,1代表男性。用factor()
为其进行编码:
# 生成factor
sex_raw <- c(1,0,1,0,0,1,1)
(sex <- factor(sex_raw,levels = c(0:1), labels = c("女", "男")))
## [1] 男 女 男 女 女 男 男
## Levels: 女 男
对sex
变量赋值的那行代码外围加了括号是一个小技巧,其效果是进行赋值操作后立即显示变量内容,这样就不用为了查看赋值结果再写一遍sex并运行。
注意在factor()
中levels=
的内容和labels=
的内容顺序是对应的。
示例数据准备
farcats
现在已经是tidyverse
的核心包之一了。加载tidyverse
时就会自动加载farcats
:
library(tidyverse)
## -- Attaching packages ---------------------------------- tidyverse 1.2.1 --
## √ ggplot2 3.2.0 √ purrr 0.3.2
## √ tibble 2.1.3 √ dplyr 0.8.3
## √ tidyr 1.0.0 √ stringr 1.4.0
## √ readr 1.3.1 √ forcats 0.4.0
## -- Conflicts ------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
我们使用forcats
包自带的示例数据gss_cat
data(gss_cat)
head(gss_cat)
## # A tibble: 6 x 9
## year marital age race rincome partyid relig denom tvhours
##
## 1 2000 Never married 26 White $8000 to 9999 Ind,near rep Protestant Southern baptist 12
## 2 2000 Divorced 48 White $8000 to 9999 Not str republican Protestant Baptist-dk which NA
## 3 2000 Widowed 67 White Not applicable Independent Protestant No denomination 2
## 4 2000 Never married 39 White Not applicable Ind,near rep Orthodox-christian Not applicable 4
## 5 2000 Divorced 25 White Not applicable Not str democrat None Not applicable 1
## 6 2000 Married 25 White $20000 - 24999 Strong democrat Protestant Southern baptist NA
用tabyl()查看频数分布
对于分类变量,频数分布表是一个查看变量情况的不错的方法。可以使用R自带的table()
,这里我们使用janitor
包中的tabyl()
library(janitor)
tabyl(gss_cat$marital)
## gss_cat$marital n percent
## No answer 17 0.0007913234
## Never married 5416 0.2521063166
## Separated 743 0.0345854862
## Divorced 3383 0.1574733510
## Widowed 1807 0.0841130196
## Married 10117 0.4709305032
用fct_recode()对faoctor进行重新编码
factor变量内含有多个固定的水平(levels),可以用fct_recode()
对factor变量的水平进行重编码:
gss_cat <- gss_cat %>%
mutate(marital = fct_recode(marital,
refuse = "No answer",
never_married = "Never married",
divorced = "Separated",
divorced = "Divorced",
widowed = "Widowed",
married = "Married"))
gss_cat %>%
tabyl(marital)
## marital n percent
## refuse 17 0.0007913234
## never_married 5416 0.2521063166
## divorced 4126 0.1920588372
## widowed 1807 0.0841130196
## married 10117 0.4709305032
注意在进行重编码时将原来的"Separated"和"Divorced"都重编为"divorced",实现了对原始水平的合并。
用fct_lump()合并占比小的水平
看上面的频数分布情况,"refuse"和"widowed"这两个水平占比都小于10%,可以用fct_lump()
把占比小于特定比例的水平全合并到一起:
gss_cat <- gss_cat %>%
mutate(marital = fct_lump(marital, prop = 0.10, other_level = "other"))
gss_cat %>%
tabyl(marital)
## marital n percent
## never_married 5416 0.25210632
## divorced 4126 0.19205884
## married 10117 0.47093050
## other 1824 0.08490434
做频数分布条形图以及用fct_reorder()对水平进行排序
tabyl()
的结果也是一个tibble对象,可以对其生成的频数分布数据做频数分布条形图:
gss_cat %>%
tabyl(marital) %>%
ggplot() +
geom_col(aes(y = n, x = marital)) +
coord_flip()
做这种条形图时我们希望各水平能按照频数的大小顺序排列,
fct_reorder()
在这种作图中就很有用:
gss_cat %>%
tabyl(marital) %>%
mutate(marital = fct_reorder(marital, n, .desc = FALSE)) %>%
ggplot() +
geom_col(aes(y = n, x = marital)) +
coord_flip()