小白使用GSEA的注意事项

最近看文献的时候GSEA分析的出现频率太高了,我想我是不是也该学习一下。帖子看了不少,官方的user guide也看了,但是一直有个挥之不去的困惑,万恶的.gct.cls文件到底怎么获得?官方文件里说的The # of rows到底包不包括前面两行?经过不断的试错,我终于找到了目前看过最好的GSEA教程,在细节之处非常贴心,小心心送给你~传送门:

ChevyXu的高通量测序数据处理学习记录(三):Pathway Analysis及GSEA

出门右转之前我再补充几个小的注意事项,真的是只有小白才会犯的错误。

  1. .gct.cls文件除了用R语言生成,也可以用EXCEL编写,单元格之间就相当于tab分隔,写好的文件另存成.txt格式,然后直接改后缀名即可。
  2. The # of rows只针对表达矩阵,不包括#1.2和自己所在的行。这点ChevyXu写的非常清楚。实际我在尝试的时候发现写错了或者列漏写了也可以run成功,但是结果是否正确不敢保证。
  3. 在参数设置这里,ChevyXu在collapse dataset to gene symbols这里写“6. just choose false”。我觉得可以补充一句。如果使用的表达矩阵里面的探针已经注释过了,或者用的测序的数据,在表格里有基因名一列,那就选false,GSEA直接使用dataset里的信息进行分析。如果是芯片文件,dataset里面还是探针的编号,那就选true,相应的要在Chip platform这一栏里面选择chip信息(.chip文件)。
引用参数设置

非常感谢各路教程作者的分享!希望能帮到其他的小白。

你可能感兴趣的:(小白使用GSEA的注意事项)