R语言reshape2包对数据格式进行整理

在临床研究中经常需要需要从医院的His系统里面导入化验单数据,然而从His系统里面导出的数据都是宽数据,很多都是多人多次反复的检查结果,并不好进行直接分析,如下图
R语言reshape2包对数据格式进行整理_第1张图片
我们需要转换成下列长数据形式才好进一步分析
R语言reshape2包对数据格式进行整理_第2张图片
我们今天将使用R语言自带的reshape2包对数据格式进行整理,将宽数据转换成长数据,或者根据需要在长宽数据进行转化,这在临床数据采集或数据挖掘中有积极的现实意义。
我们先来导入reshape2包和自己模拟一个轻度高血压的宽数据,

library(reshape2)
id<-rep(1:12)
time<-rep(1:3,4)
sbp<-round(rnorm(12,mean = 150,sd=9))
svd<-round(rnorm(12,mean = 90,sd=8))
bc<-data.frame(id,time,sbp,svd)

随便模拟一下,临床意义不管他,下图是数据的结构
R语言reshape2包对数据格式进行整理_第3张图片

be<-melt(bc,id=c("id","time"),
         measure.vars = (c("sbp","svd")),
         variable.name = "bp",
         value.name = "value") ##ID为固定不变的变量,measure.vars为需要整合的变量,variable.name 为新变量名字

新的变量bp把sbp和svd整合在里面了。
R语言reshape2包对数据格式进行整理_第4张图片
我们需要的话也可以把长数据从新转成宽数据

#转成宽数据
dcast(be,id+time~bp)#转成宽数据

R语言reshape2包对数据格式进行整理_第5张图片
其他的还有

dcast(be,id+time~bp,mean)#转成宽数据并取平均值
dcast(be,time~bp,mean)#取3次timede 
acast(be,id~time~bp)#分组表示sbp,svd的平均值

R语言reshape2包对数据格式进行整理_第6张图片
如果数据很大的话,我们也可以取一部分亚组,数据大的时候有用
取亚组的话还要导入一个plyr包

#取亚组表示
library(plyr)
acast(be,bp~id,mean, subset = .(bp == "sbp"))#取sbp为亚组的值
acast(be,bp~time,mean, subset = .(bp == "sbp"))#time每次测量平均值取sbp
acast(be,bp~time,mean, subset = .(time == 3))#取第三次sbp和svd的平均值
acast(be,bp~time,mean, subset = .(time <3))#time前两次的sbp和svd的平均值

更多精彩文章请关注公众号:零基础说科研
R语言reshape2包对数据格式进行整理_第7张图片

你可能感兴趣的:(R语言,数据挖掘)