GSVA算法部分

2020-05-26


图1


图2
图3
图4

图1给了我们分析的完整过程,图2,3,4是分析的具体过程。

我们输入到GSVA文件中的表达数据,行为基因名,列为样本名。

第一步是根据输入的表达数据按照相应的方法转化,如果是continuous microarray,使用第一个公式,如果是discrete count RNA-seq values使用第二个公式。

第二步转换完成后对每个样本的基因进行排秩,用秩代替原始的表达值,这样减少了异常值的影响。再根据rij=|p/2-Z(i)j|转换再0上下分布的形式。

第三步是计算统计量,公式是Kolmogorov-Smirnov(KS)like random walk statistic.

图5

公式里的i是基因名,j是样本名,τ默认为1,γk是基因集中的基因,p是整个数据集的基因个数,I(g(i)∈γk是判定i基因是不是属于第K个基因集,rij就是我们根据前两步算出来的,第i个基因在第j个样本中的值。现在不明白的是l是什么。如果l和p是一样的,那么这个公式上下是一样的。我看了一下GSEA和ASSESS依然没找到。

小L为每个细胞相关的基因集,分子为在某个细胞相对应的基因集中,分母为全部的数据集中的基因。后边式子是不在这个细胞基因集中的基因除以总基因集中不在此细胞基因集中的两。——2020-7-17补充

第四步是计算ES,ES取值有两种方法,图3,4两个公式。第一个公式是取Vjk中绝对值最大的值,第二个是计算最大值最小值和0点的距离做差,最大值最小值绝对值之间的差值。

顺手翻了ASSESS的东西

图6


图7

和GSVA最大的区别就是前两步,C1,C2是两个样本集,我理解的是需要对比的两个样本集,ASSESS是通过计算两样本集的比算的。我们知道的GSVA不需要输入样本分类,差异分析可以自己做,GSEA是需要输入差异样本分类文件的。

如果对那个L有解释,麻烦留个言~一万分的感谢~~~

你可能感兴趣的:(GSVA算法部分)