GSCALite:联合多数据库,研究癌症基因组学必备神器

今天给大家介绍一个研究基因组学癌症分析的在线科研工具,里面包含了33种癌症数据以及GTEX正常组织数据,平时在进行癌症分析时,正常组织的数据相比较少,比如TCGA数据库中乳腺癌数据有1200多个数据,其中有1100个是癌症数据,只有100多个是正常组织数据,进行差异分析、对比分析时就减小了说服力,今天介绍的这个网站就可以弥补这个弱点。

网址:http://bioinfo.life.hust.edu.cn/web/GSCALite/

这个网站不仅可以做表达分析,还能进行生存、通路活性分析、药物敏感性分析等等大神级别操作,话不多说,快上车!

GSCALite是由用于三个主要来源的数据的分析模块组成,涵盖的数据库有;

(TCGA数据库)33种癌症类型的11160样本的多组学数据;

(GDSC数据库)癌症药物敏感性基因组学的746种药物数据;

(CTRP数据库)癌症治疗反应门户网站(药物敏感性);

(GTEx正常组织数据库)11688个样本的正常组织表达数据。

网站使用了多个数据库!省时省力! 当你的同学正在下数据、搞代码、因程序错误而崩溃时,你就已经出图啦!


使用教程

输入想要研究的基因组数据(想输多少个就输多少个,但是不能少于五个)

分别选择癌症类型(下拉底部有正常组织数据)和分析选项,在右侧就会显示出来,注意观察下方是否显示有无效的基因,要及时修改。

点击“Start Gene Set Analysis”进行分析,当出现红色“Please check the results on top-left menus of TCGA Cancer/Drug Response/GTEx Normal Tissue.”时即可点击左上角查看结果。

结果分为三大模块:

一、 TCGA Cancer:

1.mRNA Experssion

2.Single Nucleotide Variation

3.Copy Number Variation

4.Methylation

5.Pathway Activity

miRNA Network

二、Drug Sensitivity

三、GTEx Normal Tissue

TCGA Cancer

1.mRNA 表达分析

肿瘤和正常组织对比,横坐标为癌症类型,纵坐标为研究的基因,圆圈的大小代表FDR值的大小,颜色显示log2 FC的大小,数值越大颜色越红。从这个图表中我们可以看出基因数据在那组癌症中具有显著的研究意义等。

若要下载图标,点击左上角的下载图标,还可以按照个人需求更改表格大小参数。

点击我们还可以查看表格形式数据,包括Fold Change、P-value、FDR等具体信息都有体现。

在生存分析选项,从颜色上就能转的区分处哪些是生存较差的指标,圈的大小代表P-valu的-log10数值大小。

2.单核苷酸基因变异——SNV百分比率分析图表

从SNV百分比率分析图表可以直观地各基因在不同癌症类型中突变频率大小,突变频率越高红色越深,上方还直接的显示出了样本数量。

SNV总结

在单核苷酸基因变异总结选项中,能详细的展现出基因变异类型(SNP、INS、DEL)等,简直是详细的不能再详细了。

单核苷酸基因变异瀑布图

瀑布图是经典的基因变异分析数据展示图,下方不同颜色代表不同癌症类型,右侧还展现图片频率,不用R语言瞬间出图。

单核苷酸基因变异是否与生存相关

因为基因SNV本就比较少,在生存分析上有统计意义的就更少了,比如下方图中只展现了一个基因结果,但也说明了它的重要性。

3.拷贝数变异

浅红色的Hete Amp代表杂合扩增;浅绿色的Hete Del代表杂合缺失;深红色的Homo Amp代表纯合扩增;深绿色的Homo Del代表纯合缺失;灰色代表无CNV发生。

后面还会单独列出杂合CNV和纯和CNV点状图,蓝色代表CNV缺失,红色代表CNV扩增,点越大表明突变率越大。

拷贝数变异与表达的相关性:蓝色代表正相关,红色代表负相关,颜色越深相关性越强。点的大小代表统计学意义,点越大统计意义越显著。

4.甲基化分析——肿瘤样本和正常样本的甲基化差异

差异甲基化气泡图显示了每种癌症中肿瘤与正常样品之间基因的甲基化变化。蓝点代表肿瘤中的甲基化下调,红点代表肿瘤中的甲基化上调,颜色越深,差异越大。点的大小代表统计意义,点越大,统计意义越显著。

甲基化生存分析

具有特定基因的高甲基化和低甲基化的样品之间的生存差异,图中仅显示对数p值显著(<= 0.05)的基因。红点表示高甲基化基团的低差,蓝点相反。点的大小表示统计意义,点越大,统计意义越显著。

甲基化与基因表达的相关性

蓝点表示负相关(表示当基因的甲基化水平上调,基因表达下调而不是上调时,它们具有相反的趋势),红色表示正相关(表示当基因的甲基化水平上调时,基因表达也上调) ,它们具有一致的趋势),颜色越深,相关性越高。

5.通路活性——癌症关键通路百分比:

在这里通路活性模块显示通路活性组之间的基因表达差异(通路和抑制),通路活性组由通路得分定义。红色为代表促进,绿色代表抑制。

热图百分比

热图显示至少在5种癌症类型中具有功能(抑制或激活)的基因。红色代表通路可以被给定基因激活的癌症百分比,抑制用蓝色表示。

相关性网络

该网络通过线连接向您显示基因与途径之间的关系。实线表示激活,虚线表示抑制。线条的颜色代表不同的癌症类型。

总结:
这个网站的优势就在于涵盖了多数据库,而且还可以集SNV、CNV、miRNA互作用、与药敏研究于一身,是生信文章分析、实验前指标筛选、基因通路预测的完美工具。这么多分析功能的科研神器,相信将来你一定会用到。

往期精彩内容:

关于生信建模,你可能只需这篇就够了

机器学习及建模分类方法总结

没有谷歌账号,如何管理chrome书签?

生信期刊影响因子汇总



本文转自医学方公众号,原创不易,大家感兴趣的话可以动动手指去关注一下。

你可能感兴趣的:(GSCALite:联合多数据库,研究癌症基因组学必备神器)