GEOquery下载芯片文件提取数据

提取数据

通过geoquery下载的数据是储存在一个压缩包中的,需要提取自己想要的数据

其中提取的数据包括GPL压缩文件和表达数据以及临床数据

  • 提取表达数据
##查看芯片的表达结果
head(gset[["GSE25055_series_matrix.txt.gz"]]@assayData[["exprs"]][,1:5])
##提取表达数据
exprSet=exprs(gset[[1]])
exprSet[1:5,1:5]
  • 提取临床数据
###提取临床数据
pdata=pData(gset[[1]])
head(pdata) ##查看临床数据
  • 提取GPL数据。首先需要去把下载文件夹里面的GPL文件解压。然后才可以读取
library(tidyverse)
GPL6244 <- read.delim("D:/GSE42589/GPL6244.annot/GPL6244.annot",
stringsAsFactors=FALSE,skip = 27 ) ##下载的GPL文件的前27行是基本信息,所以需要跳过的
##后续的匹配处理
a=as.data.frame(exprSet)
expr_matrix=rownames_to_column(a,var="ID")
ID_gene=select(as.data.frame(GPL6244),ID,Gene.symbol)
gene_expr=left_join(ID_gene,expr_matrix,by="ID")
gene_expr[100:109,]

你可能感兴趣的:(GEOquery下载芯片文件提取数据)