GEO、SRA和Bioproject这几个是什么关系呢?以及数据下载方法

image.png

Bioproject一般是这个数据的一个大的集合,或者说是一个上层的概念,你可以认为就是项目。
使用ebi下载geo数据?使用bioproject编号下载即可。
网址:https://www.ebi.ac.uk/ena/browser/view/

image.png

image.png

GEO ID一般指代的是NCBI基因数据上传后的ID代号,一般都是一个页面,这个页面一般提供的都是中间文件,比如转录组数据的表达矩阵,芯片数据的中间注释文件,单细胞测序的细胞注释,突变的vcf突变文件等等。SRA则是这些中间数据的来源分析的原始数据,但是这个原始数据单指测序,芯片的原始数据其实很小,一般都丢在GEO里面。一般是.sra格式,可以通过NCBI官方的SRAtools转码形成fq文件。因此他们的关系是Bioproject 项目 - GEO(项目结果中间数据) - SRA(项目原始数据),其实bioproject中还有别的,比如样本信息,实验信息,平台信息等等。基本上就是一个从属关系,另外注意GEO的部分可以跳过,部分文章只提供SRA

GEO下载方法
https://www.jianshu.com/p/30f921d4bc8e

你可能感兴趣的:(GEO、SRA和Bioproject这几个是什么关系呢?以及数据下载方法)