芯片数据分析笔记【04】 | ArrayExpress 数据库介绍

芯片数据分析笔记【01】 | 基因芯片的基本原理

芯片数据分析笔记【02】 | 芯片数据库

芯片数据分析笔记【03】 | GEO数据库使用教程及在线数据分析工具


NCBI 的基因表达综合数据库 GEO 和欧洲生物信息学研究所(EBI)的 ArrayExpress 是芯片数据的两个主要公共数据库。尽管它们具有不同的设计,但两个数据库都支持由 MIAME 定义的所有数据元素。因此 GEO 和ArrayExpress 数据库及数据集结构十分相似,可以类比的学习。ArrayExpress 数据库在 2002建立,开始收录芯片数据, 2008 年开始收录高通量测序数据,同样,近几年测序数据的增长量逐渐超过芯片数据。ArrayExpress 是 GEO 数据的一个良好的补充。

ArrayExpres数据库的主页链接(https://www.ebi.ac.uk/arrayexpress/)

进到主页之后,我们可以先看一下这个数据库的信息,比如它是功能基因组数据,目前有74700个实验的数据,2556953个芯片数据,60.91TB的存档数据,这都是在描述ArrayExpres数据库的数据量的大小。

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第1张图片

我想要搜一个关于breast cancer 的研究,那我就输入关键字:breast cancer ,然后点击搜索。

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第2张图片

搜索完之后,我们看一下结果,有2896个实验的研究出来了,其中有一些可能不是你想要的,我们可以加一些过滤条件以减少实验研究的数量。在左上角有一个"Filter search results"这个筛选工具,就是添加过滤条件的地方,我现在加一些条件,然后点击filter即可过滤。

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第3张图片

过滤后的结果就少了很多。但是还是很多,我们可以在搜索的时候多添加关键词。

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第4张图片

我把出来的这个结果对应的每个字段解释一哈:(以E-MTAB-8310为例)

  • 1. Accession:数据库ID,芯片的数据库编号;

  • 2. Title:题目也就是文章的研究方向;

  • 3. Type:实验类型,转录组分析;

  • 4. Organism:

    物种,研究的物种是人;

  • 5. Assays:

    芯片样本数,有8个样品;

  • 6. Released:上传日期,2021年3月2号;

  • 7. Processed:

    处理过的数据(包括:

    矩阵数据和单样品数据)。

    如果这里有下载的箭头,可以下载到它们。

  • 8. Raw:原始数据链接,打开后可以下载数据。下载的页面如下。


我们可以点击Accession ID 查看该数据集的详细信息,该信息页面也有下载数据的地址。

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第5张图片

参考:https://mp.weixin.qq.com/s/UWMcXFjtydTU9W3JTnUrhA

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第6张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第7张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第8张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第9张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第10张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第11张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第12张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第13张图片

芯片数据分析笔记【04】 | ArrayExpress 数据库介绍_第14张图片

你可能感兴趣的:(数据库,数据分析,数据可视化,数据挖掘,人工智能)