GEO2R使用介绍

背景

GEO2R是一个交互式web工具,它允许用户比较GEO系列中的两组或两组以上的样本,以便识别在不同实验条件下表达不同的基因。结果显示为按重要性排序的基因表。

GEO2R使用Bioconductor项目中的GEOquery和limma R包对原始提交者提供的处理过的数据表执行比较。

与GEO的其他数据集分析工具不同,GEO2R不依赖于精心设计的数据集,而是直接查询原始的系列矩阵数据文件。这使得及时分析更多的地理数据成为可能。然而,重要的是要认识到,无论数据类型和质量如何,这个工具几乎可以访问和分析任何GEO系列。

使用方法

1.输入一个序列登录号

2.定义样本分组(sample groups)

比如test和control分组,分组至少两个,最多十个。

3.为每组分配样本

通过选择每行来分配样本,各组会有相同的背景颜色标记

注意不一定要选择所有行来进行分析

4.进行测试

点击页面下方“TOP 250”进行分析(在默认参数下)

或者可以使用其他选项卡中的features来首先评估示例值分布,或者编辑默认测试参数。例如,你可以在Options选项卡中选择一个可选的P-value调整方法,然后回到GEO2R选项卡,单击[Top 250]以修改参数运行测试。

5.整合结果表

结果在浏览器中显示为按p值排列的前250个基因的表。p值最小的基因最显著。单击一行显示该基因的基因表达谱图。图中的每个红条表示从原始提交者提供的样例记录的value列中提取的表达式度量。

使用Select columns特性修改表中包含哪些数据和注释列。有关数据列含义的信息在Summary statistics部分中提供。

在Options选项卡中编辑测试参数,然后回到GEO2R选项卡并单击Recalculate来应用编辑。

要查看超过前250个结果,或者如果想保存结果,可以使用save all results按钮下载完整的结果表。下载的文件以制表符分隔,适合在Excel等电子表格应用程序中打开。


GEO2R使用介绍_第1张图片
image.png

编辑options和features

1.Value distribution

计算和查看所选示例值的分布。值是提交者提供的原始数据,在此基础上执行GEO2R计算。查看分布对于确定选择的样本是否适合进行比较非常重要。通常,以中间值为中心的值表示数据是标准化的和可交叉比较的。

2.Options

· Apply adjustment to the P-values

Limma包提供了几个p值调整选项。这些调整,也称为多次测试纠正,试图纠正错误阳性结果的发生。默认选择Benjamini & Hochberg错误发现率方法,因为它是对微阵列数据最常用的调整,并在发现统计上重要的基因和限制假阳性之间提供了良好的平衡。

· Apply log transformation to the data

GEO数据库接受各种数据值类型,包括logged和未logged的数据。Limma包需要使用logged数据为了解决这个问题,GEO2R有一个自动检测特性,它检查所选样本的值,并自动执行log2转换。可选择是否自动转换。

· Category of Platform annotation to display on results

选择要在结果上显示的注释类别。基因注释来自于相应的平台记录。有两种注释类型:

NCBI生成的注释可用于许多记录。这些注释是通过从平台中提取稳定的序列识别信息,定期查询Entrez基因和UniGene数据库,生成一致的、最新的注释而得到的。默认情况下选择基因符号和基因标题注释。NCBI生成的注释的其他类别包括GO术语和染色体位置信息。

提交者提供的注释可用于所有记录。这些表示提交者提供的原始平台注释。请注意,提交者提供的注释在样式和内容上有很多多样性,而且自提交时起可能就没有更新过。

3.Profile graph

通过从平台记录的ID列输入相应的标识符来查看特定的基因表达谱图。此功能不执行任何计算;它只是在样本间显示基因的表达值。要使此功能正常工作,不需要定义示例组。

4.R script

此选项卡打印用于执行计算的R脚本。这些信息可以保存下来,作为计算结果的参考。

限制和注意事项

1.检查样本值是否具有可比性

GEO2R操作一系列矩阵文件,其中包含直接从示例表的值列中提取的数据。提交者被要求在VALUE列中提供规范化的数据,从而使示例具有交叉可比性。大部分的GEO数据都符合这一规律。GEO只应用于对确定不在日志空间中的值执行log2转换(请参阅选项部分)。然而,一些研究,如双通道环路设计数据,可能会产生没有共同参考和不能直接比较的值。有些研究可能包含没有标准化的样本值数据,或者设计的样本从未打算直接进行比较。然而,其他研究没有足够的重复样本来进行稳健的统计分析。用户应检查原始系列以了解实验设计,并检查原始样本记录中的“数据处理”字段或值描述,以了解值表示的信息。Value distribution选项卡上的box plot特性用于帮助用户评估不同样本之间的值分布是否以中介为中心,这通常表示数据是标准化的,并且具有交叉可比性。

2.数据类型限制

GEO2R操作序列矩阵文件中的数据,其中包含直接从示例表的值列中提取的数据。某些类别的GEO样本没有数据表(例如,高通量测序或基因组平铺阵列),因此不能使用GEO2R进行分析。

3.序列内限制

GEO2R对序列矩阵文件进行操作。因此,分析仅限于发生在一个系列中的样本;不可能执行跨序列比较。

4.操作失败

有时候,GEO2R分析会失败,因为输入数据的某些方面与GEOquery或limma包不兼容。

5.255样本显示

最多分析255个样本

6.十分钟限制

GEO2R目前为作业处理设置了10分钟的截止时间。如果你要分析的序列有大量的样本和/或基因,那么分析可能无法完成。


数据参考:GEO网站&&生信技能树

友情链接:

课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)

欢迎关注公众号:青岛生信菜鸟团

你可能感兴趣的:(GEO2R使用介绍)