tSNE和UMAP的区别

这一篇是我的学习笔记,先附上学习链接:https://mp.weixin.qq.com/s/qkbc1vz-ERHzGp8gfLiVsg


首先,这是两种降维的scRNA-seq的降维图

那么它们有什么区别呢?



首先,在高维空间内,描述两个点(两个细胞)的距离不一样,tSNE采取的是“概率算法”,即把两个点的距离转换成概率,若 i 与 j 这两个点距离比较近的话,它所对应的概率较大;而UMAP采取的是传统的欧式距离。
这里的x表示的高维空间的距离


计算出距离以后,tSNE对距离进行了标准化,而UMAP没有
这里的标准化是指对于tSNE,不同的cluster,两个点之间概率(相似度)是不一样的,哪怕它们是聚为一类的,类与类内的两点间距离也是不同的
换句话说就是,由于每一群样本点的疏散程度不一样,也就是有的类内点与点之间的距离比较大,有的类内点与点之间的距离比较小,这样不利于将高维空间的距离映射到低维空间

可参考:
https://www.jianshu.com/writer#/notebooks/42008597/notes/59107870/preview


在计算σ的时候(计算距离所需)
在此之前,我们先简单介绍下perplexity和香农熵

perplexity

perplexity反应的是细胞的临近个数,当perplexity越大,细胞分布越紧密,一般perplexity = (细胞数-1)/ 3

香农熵

香农熵是用于描述细胞的混乱程度的物理量,什么意思呢?
每两个细胞之间都会存在一定的距离,香农熵描述的是细胞间的距离层差不齐的程度



那么回到我们这幅图



UMAP用i点与其他点距离的总和代替tSNE的perplexity中的香农熵

最后就是降维以后,在低维空间的距离校正方法不同,tSNE采用的是t分布进行校正,而UMAP采用的是与最小距离比较,从而确定表达式



这里的y指的是低维空间的两点(两个细胞)间的距离,

通过高维空间的距离到低维空间的映射,那么低维距离就可以进行可视化

总结

  1. 高维数据和低维数据转换距离分布时,UMAP没有进行标准化;(省时)
  2. 计算σ时,UMAP用邻近个数代替tSNE的perplexity;(省时)
  3. UMAP不直接用t分布拟合低维数据,添加参数动态调整,但是接近t分布;
  4. UMAP的损失函数用Cross-Entropy(CE)代替tSNE的KL散度;(全局)
  5. UMAP用随机梯度下降(SGD)代替tSNE的梯度下降法(GD)。(省时省内存)

你可能感兴趣的:(tSNE和UMAP的区别)