芯片数据分析笔记【02】 | 芯片数据库

芯片数据分析笔记【01】 | 基因芯片的基本原理


比较大的芯片数据库 有美国 NCBI 的 GEO,欧洲 EMBL-EBI 的 ArrayExpress,日本 DDBJ 的 GEA,不过这个 GEA 直 接连接到 ArrayExpress,还有TCGA数据库中也有大量肿瘤芯片数据,不要误 以为 TCGA 全是测序数据。其中 GEO 是最大的芯片数据库,其次是 ArrayExpress。

1. GEO数据库简介

芯片数据分析笔记【02】 | 芯片数据库_第1张图片

GEO,全称 Gene Expression Omnibus(基因表达综合数据库),是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收 录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基 因组数据,这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。关键是这个数据是免费的!随着芯片和测序技术的蓬勃发展和应用, 2000 年美国国立生 物技术信息中心, NCBI 创建了 GEO 并维护至今。2003 年到 2004 年 GEO 数据库逐渐开放供 研究者获取和分析, 2001 年到 2006 年, GEO 数据上传的规则,也就是 MIAME(The Minimum Information About a Microarray Experiment guidelines)逐渐形成并实行,并成为提交 芯片数据的全球规范。

地址:https://www.ncbi.nlm.nih.gov/geo/

GEO 数据库收录的数据类型有:

  • 01)基因芯片或高通量测序的基因表达数据,包括 ncRNA

  • 02)基因芯片或高通量测序的 ChIP 数据

  • 03)基因芯片或高通量测序的基因组甲基化数据

  • 04)高通量实时定量 PCR 的数据

  • 05)微阵列比较基因组杂交技术(arrayCGH)的基因组变异数据

  • 06)单核苷酸多态性(SNP)芯片数据

  • 07)基因表达系列分析(SAGE)的数据

  • 08)蛋白芯片数据

  • 09)十几组大规模平行测序 MPSS 数据

  • 10)十几组质谱 MS 数据

  • 11)其他

2.ArrayExpress 数据库

NCBI 的基因表达综合数据库 GEO 和欧洲 生物信息学研究所(EBI)的 ArrayExpress 是芯片数据的两个主要公共数据库。尽管它们具 有不同的设计,但两个数据库都支持由 MIAME 定义的所有数据元素。因此 GEO 和 ArrayExpress 数据库及数据集结构十分相似,可以类比的学习。ArrayExpress 数据库在 2002 建立,开始收录芯片数据, 2008 年开始收录高通量测序数据,同样,近几年测序数据的增 长量逐渐超过芯片数据。ArrayExpress 是 GEO 数据的一个良好的补充。

芯片数据分析笔记【02】 | 芯片数据库_第2张图片

目前【2021年8月27】有74700个实验的数据,2556953个芯片数据,60.91TB的存档数据,这都是在描述ArrayExpres数据库的数据量的大小。

ArrayExpres数据库的主页链接(https://www.ebi.ac.uk/arrayexpress/)

芯片数据分析笔记【02】 | 芯片数据库_第3张图片

芯片数据分析笔记【02】 | 芯片数据库_第4张图片

芯片数据分析笔记【02】 | 芯片数据库_第5张图片

芯片数据分析笔记【02】 | 芯片数据库_第6张图片

芯片数据分析笔记【02】 | 芯片数据库_第7张图片

芯片数据分析笔记【02】 | 芯片数据库_第8张图片

芯片数据分析笔记【02】 | 芯片数据库_第9张图片

芯片数据分析笔记【02】 | 芯片数据库_第10张图片

芯片数据分析笔记【02】 | 芯片数据库_第11张图片

你可能感兴趣的:(数据库,大数据,人工智能,数据挖掘,mysql)