R语言 | 利用Bioconductor包注释探针,进行探针ID转换

1.安装GPL相应的R包

(1)得到GPL对应R包的名称

不同的GPL进行注释所需要用到的R包是不同的,我们首先要明白我们的GPL应该用什么R包

方法一:通过Bioconductor官网进行检索

方法二:通过检索platformMap.txt

platformMap.txt这个文件通过检索引擎直接搜索就可以在各个网站上下载。

platformMap.txt是某位大神整理的,里面包含了各种GPL与其对应的R包,我们可以从这个文件中检索到我们需要用到的R包是什么。

使用方法:

#先用R读取platformMap.txt文件
platformMap <- platformMap <- data.table::fread( "C:/Users/Luotianyu/Documents/platformMap.txt", data.table = F)
#数据储存在文件的bioc_package这一列中
paste0(platformMap$bioc_package[grep(index, platformMap$gpl)], ".db")

不过这个方法有个缺点,就是这个文件最后更新的日期是在2020年,不知道以后还会不会有更新,如果未及时更新,可能有些GPL对应的R包在这个文件中无法收录到。

(2)安装R包

## 安装R包,可以直接安装,这里用了判断
if(!requireNamespace("hugene10sttranscriptcluster.db")){
  options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
  BiocManager::install("hugene10sttranscriptcluster.db",update = F,ask = F)
}
##备用方法:在必应上搜索R包名称(如hugene10sttranscriptcluster)加“.db”,可找到下载方法。

## 加载R包
library(hugene10sttranscriptcluster.db)

2.进行注释

## 获取探针和基因的对应关系:这是探针注释的关键步骤
probe2symbol_df <- toTable(get("hugene10sttranscriptclusterSYMBOL"))
## 探针有多少个?
length(unique(probe2symbol_df$probe_id))  #结果:19870个。
## 这么多行中,基因名称有重复的么?
length(unique(probe2symbol_df$symbol))  #结果:18859行。

library(hgu133plus2.db)

# 查看有哪些对应关系
ls("package:hgu133plus2.db")

# 得到对应关系
probe2symbol2 <- toTable(hgu133plus2SYMBOL)
probe2symbol2[1:6,]

probe2entrezid <- toTable(hgu133plus2ENTREZID)
probe2entrezid[1:6,]

probe2id <- merge(probe2symbol2,probe2entrezid,by="probe_id")

你可能感兴趣的:(GEO,R语言,r语言)