R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载

基于web工具,用户可以对GEO存储的大量数据进行浏览,查询和可视化。通过四种编号GPLGDSGSEGSM可以获得完整的平台,数据集,系列以及样本的信息.

其中属于用户提交的原始数据包括:GPL(Platform),GSM(Sample),GSE(Series)。GEO数据库整理后的数据包括:数据集GDS(DataSets), 表达谱(Profiles).GEO根据平台,数据集,系列和样本四种形式组织数据。

平台(Platform,GPLXXX)检索

平台信息是由微阵列的简要描述和用来确定微阵列模板的数据表构成。最基本的平台想信息是探针列表,它们规定了哪些基因可以在该芯片平台上被检测出来,平台编号以GPL为起始。以GPL6244为例点击网址.

步骤如下:
1.在GEO主界面点击Platform,进入平台检索界面;

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第1张图片
GPL1.jpg

2.检索框中输入检索号GPL6244,点击search;跳转至检索结果。

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第2张图片
GPL2.jpg

3.点击下图中的“GPL6244”跳转至详细信息。

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第3张图片
GPL3.jpg

4.平台包含的信息介绍
打开网址看到平台信息主要包括两个部分,上半部分主要是平台信息的描述(见下图1),下半部分是平台数据信息描述(见下图2)。

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第4张图片
平台描述.jpg
R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第5张图片
表格信息.jpg

平台(Platform,GPLXXX)数据下载

  1. Platform包含的文件,
    一个platform通常包含3种文件:分别是soft文件,minimal文件以及suppl文件,这里我们重点介绍soft文件,soft文件位置见下图:
R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第6张图片
GPL4.jpg

找到下载文件,soft文件(这里用的例子的文件很大,等待的时间会长些)

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第7张图片
soft1.jpg

soft文件下载好了以后,对文件进行解压,将文件的后缀改为“xls”或“xlsx”,用Excel打开该文件,然后我们对soft 文件内容进行解读:soft和miniml都是显示的platform的基础信息。在soft文件中,每种类型的信息以^开头,这里介绍常见的几种类别:

(1)DATABASE代表GEO数据库的基本信息;

(2)PLATFORM代表该平台的基本信息;

(3)SAMPLE代表用该平台得到的样本信息;

(4)SERIES代表使用该平台得到的一组样本。

在每种类别中,!开头代表一种类型的信息,常规格式为key = value

对于芯片平台而言,还会提供探针和基因之间的对应关系等信息,在对应的网页上,我们可以看到如下的表格:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第8张图片
soft2.jpg

miniml中的内容和soft是一样的,只是用XML格式来存储上述信息,而supplement file则是由提交者自己上传的一些补充文件,没有明确的格式。

样本(Sample,GSMXXX)

在基因芯片实验中,一个样本中所有基因的表达水平通常由一张芯片来检测,样本信息由检测的生物材料的描述,所遵循的实验协议和包含检测丰度值的数据表构成,样本编号以GSM为起始。

我们以GSM247678为例,进行检索。打开GEO数据库官网,(网址:点击网址.),进入检索页面如下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第9张图片
GSM1.jpg

点击samples跳转至样本平台见下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第10张图片
GSM2.jpg

在检索框中输入GSM247678,点击search,跳转至检索结果,见下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第11张图片
GSM3.jpg

点击下图GSM247678,跳转样本检索结果。

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第12张图片
GSM4.jpg

通过下图第一部分可以看到GSM247678样品的描述信息

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第13张图片
GSM5.jpg

通过下图第二部分可以看到GSM247678样品所用的芯片平台和系列信息。

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第14张图片
GSM6.jpg

然后我们通过下图可以查看全部表格数据和下载原始数据。

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第15张图片
GSM7.jpg

系列(Series,GSEXXX)

系列是由数据提供者交给GEO的一次实验的基因芯片数据,这些数据具有明确的研究目的,是用户使用GEO时经常采用的一种数据查询和下载方式,系列编号以GSE为起始。

接下来我们以GSE24673为例,介绍GSE系列数据的检索和结果解读。

首先打开GEO数据库官网(网址:点击网址.),点击Series 进入检索页面如下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第16张图片
GSE1.jpg

点击Series,跳转至系列,见下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第17张图片
GSE2.jpg

在检索框中输入GSE24673,点击search命令,结果见下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第18张图片
GSE3.jpg

点击检索框中的GSE24673,调整至检索结果,,这一部分主要描述的是GSR系列的一些基本信息,包括文章题目,摘要,种属等,详细说明见下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第19张图片
GSE4.jpg

这一部分主要描述的是所使用的芯片平台信息以及样本信息,详细见下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第20张图片
GSM5.jpg

这一部分描述的是GSE提供的下载文件,包括SOFT文件,MINIMl 文件,Series Matrix File(s)以及原始数据文件,数据分析时,我们会用到Series Matrix File(s)文件或者原始数据详细见下图:

R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载_第21张图片
GSE6.jpg

正确的分析是建立在对数据的正确理解之上,所以在做分析之前,我们需要理解数据的基本信息,最基本的几条内容:第一从Title 翻译到 Over design,了解文章的标题物种实验类型摘要总体设计。其他需要关注的问题就是系列中的样本数量,N个样本按照实验设计是如何分组的,分成几组。

最后,谢谢各位伙伴的支持,我是青盐,一个自学生信,并致力于在新疆推广生信分析技能的菜鸟,今天给大家分享的内容就到这,青盐在这里与每一位生信自学者共学,共勉,加油加油。

你可能感兴趣的:(R语言挖掘GEO数据库实战之-GEO数据库的构成及网页点击下载)