基因富集分析 GSEA for time-course

基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。

统计过程:1.计算富集分数。2.估计富集分数的显著程度。3.校正多重假设检验。
基因富集分析 GSEA for time-course_第1张图片

安装GSEA软件

在安装GSEA软件之前,你的电脑先要安装JAVA, 因为GSEA是在JAVA的环境下运行的。安装JAVA,可以参考https://blog.csdn.net/qq_42040731/article/details/82598034

下载GSEA软件

http://software.broadinstitute.org/gsea/downloads.jsp

基因富集分析 GSEA for time-course_第2张图片
然后按照默认情况下,安装GSEA

打开GSEA,界面如下:

基因富集分析 GSEA for time-course_第3张图片

数据准备

GSEA的数据准备都有它的格式的,

1. 样品表达量文件(res, gct, pcl, or txt)——必需文件

通常用.gct为后缀。

  • 文件第一行以“#1.2”开头;
  • 文件第二行的第一列为基因个数、第二列为样品个数;
  • 文件的第三行为表达谱的矩阵的title信息,第一列为基因symbol/探针号,第二列为基因/探针的描述信息(如果没有,可以用NA),第三列以后为样品id。接下来的行对应每个基因/探针在每个样品中的表达信息。文件以tab作为分隔符。
    基因富集分析 GSEA for time-course_第4张图片

2. 样品表型分类文件(cls)——必需文件

(1)以分类(例如肿瘤与正常)类文件格式(*.cls)

CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符来分隔字段。

CLS文件格式在某种程度上有所不同,具体取决于您是定义分类还是连续表型。分类标签定义了不连续的表型; 例如,正常与肿瘤。对于分类标签,CLS文件格式组织如下:

基因富集分析 GSEA for time-course_第5张图片
样品表型分类文件需以.cls为后缀。

  • 文件第一行为三个数字,第一个是样品的总数,第二个是样品分为几类,第三个数字通常为1。
  • 第二行也通常三个字符串,第一个为#,第二个为分类1的名称,第三个位分类2的名称。
  • 第三行为每个样品的分类信息,0代表分类1,1则代表分类2。文件以空格或者tab分割。

(2)连续(例如时间序列或基因谱)文件格式(.cls)
CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符来分隔字段。

CLS文件格式在某种程度上有所不同,具体取决于您是定义分类还是连续表型。连续表型用于时间序列实验或寻找与目的基因(基因邻居)相关的基因组。用于连续标签的CLS文件可以包含一个或多个标签。以下示例显示了定义两个连续标签的CLS文件:

#numeric
#AFFX-BioB-5_st
206.0 31.0 252.0 -20.0 -169.0 -66.0 230.0 -23.0 67.0 173.0 -55.0 -20.0 469.0 -201.0 -117.0 -162.0 -5.0 -86.0 350.0 74.0 -215.0 193.0 506.0 183.0 350.0 113.0 -17.0 29.0 247.0 -131.0 358.0 561.0 24.0 524.0 167.0 -56.0 176.0 320.0
#AFFX-BioDn-5
75.0 142.0 32.0 109.0 -38.0 -80.0 62.0 39.0 196.0 -42.0 199.0 49.0 171.0 327.0 115.0 -71.0 85.0 80.0 270.0 182.0 208.0 -94.0 292.0 233.0 34.0 0.0 59.0 233.0 48.0 466.0 -7.0 -96.0 297.0 38.0 208.0 -15.0 30.0 357.0

第一行: #numeric 指示所述文件定义为连续型标签。其余部分定义连续的表型。

对于每一种表型:

  • 先用一行定义表型的名称:例如: #AFFX-BioB-5_st
  • 第二行表示每个样本对应的时间点

3. 预定义基因集(gmx or gmt)——非必需文件

GMT文件格式是以制表符分隔的文件格式,用于描述基因集。在GMT格式中,每行代表一个基因集; 在GMX格式中,每列代表一个基因集。GMT文件格式组织如下:
基因富集分析 GSEA for time-course_第6张图片
每个基因组由名称,描述和基因组中的基因描述。GSEA使用描述字段来确定报告中为基因集描述提供的超链接:如果描述为“na”,则GSEA提供指向MSigDB中命名基因集的链接; 如果描述是URL,则GSEA提供指向该URL的链接。

4. 查看更多GSEA文件格式

去http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats查看关于GSEA文件格式的要求。

RunGSEA

1. 导入文件

点左侧的Load data,选择Browse for files..., 然后找到对应的文件,进行导入。如果成功的话,会有消息告诉你导入成功,如果不成功,就需要自己再去检查文件格式等等是否正确了。
基因富集分析 GSEA for time-course_第7张图片
基因富集分析 GSEA for time-course_第8张图片

2.参数选择

点击左侧Run GSEA,接下来右侧面板会弹出参数选择框。上方的为必需的参数设置,下方的为非必需的。此处,主要讲解一下必需的参数设置。

Expression dataset(表达文件): 选择上一步上传的表达gct文件

Gene sets database (功能基因集数据库):GSEA包含了MSigDB数据库中的功能基因集,可以从中选择感兴趣的通路、癌症标记、转录因子数据库等。比如,我使用的是c2.cp.kegg.v7.0.symbols.gmt
基因富集分析 GSEA for time-course_第9张图片
Number of permutations(扰动/随机次数):通常设置1000,此参数不可过小。

Phenotypes labels(样品表型分类文件):选择上一步上传的表型cls文件
基因富集分析 GSEA for time-course_第10张图片
Collapse dataset to gene symbols

  • 选择ture的情况时,你的表达数据是用probe id 作为基因名的,如果你这里选择的是true,那在Chip platform中就要选择对应的平台号才可以运行。
  • 选择false的情况是, 你的表达数据是用symbol作为基因名的。如果你这里选择的是false,那在Chip platform中就不需要选择了,空着就可以的。

Permutation type(扰动类型): 通常选择phenotype,如果样品数目较少可以选择gene_set。

Chip platform(芯片类型):如果表达gct文件的第一列为芯片探针id则此处需要选择对应的芯片平台,如果是基因symbol则无需选择。

如果是分类型的数据,就可以不进行下面参数的选择,直接默认,然后去最下面run就可以了。
因为我的数据是时间系列的,所以,我还需要在basic fields中设置参数。点basic fields 右侧的那条线就可以出现它这个区域下的参数了。

Anlysis name : 看你想不想改咯,这里可以设定你自己想要的名字。
Enrichment statistic : 默认是 weighted
Metric for ranking genes: 因为我的数据时时间型的,所以在这个参数选择,我必须要改成 pearson, cosine, manhattanEuclidean其中一个

时间连续型的数据,Metric for ranking genes必须要改成 pearson, cosine, manhattanEuclidean其中一个

Save results in this folder: 选择自己想要保存在哪里的文件夹中

参数选择完毕点击右下角的Run运行GSEA。点击完成后在左下方面板会出现Gsea running字样。如果分析完成,Running状态会更改为Success状态。点击Success则可查看分析结果。这个运行时间与所选的功能基因集、扰动的次数有关。

结果解读

主要还是看这个图:
基因富集分析 GSEA for time-course_第11张图片

  • 图的顶部部分显示了基因集的运行ES,分析沿着排序列表进行。图中最高分(离0.0最远的分数)是该基因集的ES值。在开始(如这里所示)或列表末尾具有不同峰值的基因集通常是最有趣的。
  • 图的中间部分显示了该基因集的成员出现在排列好的基因列表中的位置。
  • 基因集的前缘子集是对ES贡献最大的成员子集。对于正ES(如这里所示),前缘子集是出现在排名列表中的成员集,这些成员出现在最高分之前。对于负数ES,它是出现在最高分之后的一组成员
  • 图的底部部分显示了排序指标的值,当您向下移动排序基因列表时。排名指标衡量的是基因与表型的相关性。当您沿着排名列表向下移动时,排名指标的值从正变为负。阳性值表示与第一个表型相关,阴性值表示与第二个表型相关。对于连续表型(时间序列或感兴趣的基因),阳性值表示与表型谱相关,阴性值表示不相关或反向相关

注意:默认情况下,排名指标是信噪比。要让GSEA根据不同的度量对基因进行排序,请在Run
GSEA页面查看度量对基因参数进行排序。使GSEA分析您所创建的基因的排序列表,请使用GSEAPreranked页面。

参考:

GSEA User Guide

超详细教程│GSEA基因集富集分析

如何实现GSEA-基因富集分析?

你可能感兴趣的:(GSEA,生信,gene,expression,matrix)