学习小组Day6笔记--大羽

一、教程思维导图

生信星球公众号教程

二、知识点

1️⃣准备工作
1.安装并加载tidyr包

install.packages("tidyr")
library(tidyr)
会有一些小细节需要注意

2.数据框常识
3.tidyr data格式

这是一种组织表格数据的方式,提供了一种能够跨包使用的“统一”的数据格式。
什么叫“统一”?
每个变量(variable)占一列,每个情况(case,姑且这么翻译)和观测值(observation)占一行。

生信星球公众号例子

2️⃣处理数据格式实操
1.reshape data
几种方式:

gather(a,X1999,X2000,key = "year",value = "cases")
数据框名,需合并的列名(两个),合并后的key列名,value列名。
==================================================
gather(a,"year","cases",X1999,X2000) #推荐的偷懒做法
ather(a,year,cases,-country)  #-country的意思就是合并除country外剩下的列。

2.handle missing values
处理丢失的数据。就是某些单元格有空值的情况。

三种处理方式:
(1).删除整行
(2).根据上下文(瞎)蒙一个
(3).同一列的空值填上同一个数。

对应代码(公众号):

drop_na():有空值的,整行删除掉
括号里填数据框名,依据的列名(有空值那一列的列名)
drop_na(X,X2)

fill(),根据上一行的数值填充上(好应付的感觉)
fill(X,X2)

replace_na(),空值填进去特定的一个数值(还是在应付)
括号里填数据框名,要填的列名=要填的值
replace_na(X,list(X2=2))

3.expand tables
①complete(把空值的位置补全)

complete(X,nesting(X1),fill = list(X2=5))
公众号例子

②expand(列出每列值所有可能的组合)
需要多练习
4.split cells

separate:按列分割
separate_rows:按行分割
把一列拆成两列,原列必须要有分隔符。

unite:分割完了再合并回去

你可能感兴趣的:(学习小组Day6笔记--大羽)