原始数据不仅有GEO, 还有ArrayExpress!

欢迎关注”生信修炼手册”!

和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下

>https://www.ebi.ac.uk/arrayexpress/

数据来源于下图所示的两个部分

原始数据不仅有GEO, 还有ArrayExpress!_第1张图片

第一部分是由科研工作者提交的数据,第二部分是从GEO数据库自动导入的数据。在NAD代谢相关的文章中,就提到了来自该数据库的原始数据,链接如下

https://www.ebi.ac.uk/arrayexpress/experiments/E-TABM-940/

对于每个数据集,都提供了该数据的简要描述,比如物种,样本数目,平台等信息

原始数据不仅有GEO, 还有ArrayExpress!_第2张图片

在Files一栏中,可以查看需要下载的文件

原始数据不仅有GEO, 还有ArrayExpress!_第3张图片

点击all available files, 就会显示所有的文件,主要分成了两部分,数据集的原始数据和芯片平台的注释信息

原始数据不仅有GEO, 还有ArrayExpress!_第4张图片

从该数据集的描述可以看到,使用的是Affymetirx的芯片,所以在下载数据集,我们需要获取以下3种信息

1. 芯片表达谱

表达谱包括了原始数据和整理好的表达量文件,在该数据集中,raw.zip就是原始的芯片下机数据。解压缩之后可以看到后缀为cel的原始数据

原始数据不仅有GEO, 还有ArrayExpress!_第5张图片

可以通过affy等R包读取这些原始文件,从而生成表达量矩阵。为了方便,该数据集之类提供了一个r对象,即后缀为eSet.r的文件,该文件其实就是读取原始数据后生成的R对象。在R环境中,通过如下代码可以读取该文件

load("E-TABM-940.eSet.r")
# 所有的对象默认都叫做study, 所以通过重命名来区分不同的数据集
data <- study
# 查看表达量
head(exprs(data[1:5, 1:5]))

在后缀为idf.txt的文件中,提供了该数据集的一些简要描述信息

原始数据不仅有GEO, 还有ArrayExpress!_第6张图片

在后缀为sdrf.txt的文件中,提供了样本的描述信息,该文件为纯文本文件,每一行为一个样本,部分列名如下

原始数据不仅有GEO, 还有ArrayExpress!_第7张图片

可以看到,包含了样本的各种信息,以Characteristics 和 Factor 开头的列需要重点关注,这里面可能就包含了重要的分组信息和生存数据。

2. 芯片的注释信息

在芯片的数据中,后缀为adf.txt的文件提供了探针的各种注释信息,每一行为一个探针,部分内容示例如下

原始数据不仅有GEO, 还有ArrayExpress!_第8张图片

详细的表头如下

原始数据不仅有GEO, 还有ArrayExpress!_第9张图片

可以看到,包含了ensembl, refseq, genebank等多种注释信息。

另外还有一个非常重要的文件,就是后缀为cdf.gz的文件。在用R读取该文件芯片的原始数据cel文件时,需要对应的cdf文件。对于一些常规型号的芯片,在R中集成了对应的cdf文件,在读取阶段会自动下载对应的cdf文件,但是对于非常规,少见的自定义芯片,就必须手动下载该文件了。

值得注意的是,本文介绍的方法是针对affymetrix芯片平台的,目前芯片平台主要由Agilent, illumina, Affymetirx 3种,不同的芯片来自不同的厂家,其文件格式和处理方式有很大不同,必须针对不同的平台采取不同的方法。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  更多精彩

  • KEGG数据库,除了pathway你还知道哪些

  • 全网最完整的circos中文教程

  • DNA甲基化数据分析专题

  • 突变检测数据分析专题

  • mRNA数据分析专题

  • lncRNA数据分析专题

  • circRNA数据分析专题

  • miRNA数据分析专题

  • 单细胞转录组数据分析专题

  • chip_seq数据分析专题

  • Hi-C数据分析专题

  • HLA数据分析专题

  • TCGA肿瘤数据分析专题

  • 基因组组装数据分析专题

  • CNV数据分析专题

  • GWAS数据分析专题

  • 机器学习专题

  • 2018年推文合集

  • 2019年推文合集

  • 2020推文合集

  写在最后

转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。

扫描下方二维码,关注我们,解锁更多精彩内容!

原始数据不仅有GEO, 还有ArrayExpress!_第10张图片

一个只分享干货的

生信公众号

你可能感兴趣的:(数据库,大数据,机器学习,数据分析,java)