GSEA软件用起来~

在网上搜到一个亲爹教程,写得真好,详细得不行。直接就出结果啦~
超详细教程│GSEA基因集富集分析
1. 样品表达量文件(res, gct, pcl, or txt)——必需文件

通常用.gct为后缀。文件第一行以“#1.2”开头;文件第二行的第一列为基因个数、第二列为样品个数;文件的第三行为表达谱的矩阵的title信息,第一列为基因symbol/探针号,第二列为基因/探针的描述信息,第三列以后为样品id。接下来的行对应每个基因/探针在每个样品中的表达信息。文件以tab作为分隔符。

GSEA软件用起来~_第1张图片
image

2. 样品表型分类文件(cls)——必需文件

样品表型分类文件需以.cls为后缀。文件第一行为三个数字,第一个是样品的总数,第二个是样品分为几类,第三个数字通常为1。第二行也通常三个字符串,第一个为#,第二个为分类1的名称,第三个位分类2的名称。第三行为每个样品的分类信息,0代表分类1,1则代表分类2。文件以空格或者tab分割。

GSEA软件用起来~_第2张图片
image
  1. 预定义基因集(gmx or gmt)——非必需文件

通常用.gmt作为后缀。若采用GSEA预定义的MSigDB数据库中的功能基因集分析,则无需自己定义该文件。每一行为一个功能基因集,第一列为基因集的名称,第二列为简单描述,第三列及以后列为该功能基因集所包含的基因symbol。基因集包含多少个基因,就列出多少个基因。文件以tab作为分隔符。


GSEA软件用起来~_第3张图片
image.png

其次,做的过程中,需要知道你想要的基因集。找到一篇文章,可以查阅。
Molecular Signatures Database

你可能感兴趣的:(GSEA软件用起来~)