在线作图丨数据降维方法⑤——t-SNE(t-Distributed Stochastic Neighbor Embedding)

Question 1:什么是t-SNE?

t-Distributed Stochastic Neighbor Embedding (t-SNE) 是一种非线性降维技术,特别适用于高维数据集的可视化。它广泛应用于图像处理、NLP、基因组数据和语音处理。
t-SNE 工作原理如下:算法首先计算点在高维空间中的相似概率,然后计算相应低维空间中点的相似概率。点的相似性计算为条件概率,如果在以 A 为中心的高斯(正态分布)下按其概率密度按比例选择邻居,则点 A 将选择点 B 作为其邻居。然后,它尝试最小化高维空间和低维空间中这些条件概率(或相似性)之间的差异,以完美地表示低维空间中的数据点。
为了测量条件概率差之和的最小化,t-SNE使用梯度下降法最小化总体数据点的Kullback-Leibler 散度之和。(Kullback-Leibler 散度是衡量一个概率分布如何偏离第二个预期概率分布的方法)
简单来说,t-SNE最小化了两个分布之间的差异:一个分布测量输入对象的成对相似性,一个分布测量嵌入中相应低维点的成对相似性。通过这种方式,t-SNE 将多维数据映射到较低维空间,并尝试通过基于具有多个特征的数据点的相似性识别观察到的集群来找到数据中的模式。但是,经过这个过程,输入的特征就不再可识别了,你不能仅仅根据 t-SNE 的输出做出任何推断。因此它主要是一种数据探索和可视化技术。

Question 2:t-SNE与PCA有什么区别?
PCA 和 t-SNE 各有优缺点,PCA 和 t-SNE 之间的一些主要区别如下:
①t-SNE 的计算成本很高,在百万样本数据集上可能需要几个小时,而 PCA 将在几秒钟或几分钟内完成。
②PCA 它是一种数学技术,但 t-SNE 是一种概率技术。
③线性降维算法,如 PCA,专注于将不同的数据点放置在较低维度的表示中。但是为了在低维非线性流形上表示高维数据,必须将相似的数据点紧密地表示在一起,这是 t-SNE所没有的。
④有时在 t-SNE 中,具有相同超参数的不同运行可能会产生不同的结果,因此在使用 t-SNE 进行任何评估之前必须观察多个图,而 PCA 则不是这种情况。
⑤PCA 是一种线性算法,它无法解释特征之间的复杂多项式关系,而 t-SNE 则可以准确地捕捉到特征之间的多项式关系。

Question 3:如何不使用R语言绘制t-SNE分析图?
云图图(https://www.cloudtutu.com/#/index,免费的哦~),操作步骤如下:
①登录网址:https://www.cloudtutu.com/#/index(推荐使用360或者谷歌浏览器)
②输入用户名和密码(小编已经为大家填好了,如果不显示可添加文末二维码添加小编获取),输入验证码后即可登录,无需注册,直接使用,不必担心隐私泄露,是不是诚意满满~
③登录后在工具一栏(全部分析)里找到t-SNE分析,点击进入;
④请按照界面右侧的说明书或者下文进行操作,即可在2分钟内获得一张精美的t-SNE分析图喽~
话不多说,我们开始行动吧~

Step 1:上传数据
※目前平台仅支持.txt(制表符分隔)文本文件或者.csv文件的文件上传。
平台可对不规范的数据格式进行部分处理,但还是请您尽量按照示例数据的格式调整数据,以便机器可以识别。
a)准备一个数据矩阵(形式参照示例数据,如微生物物种丰度表、基因表达量矩阵、代谢物含量表,也可以是测量数据,例如身高、体重、表型等)和一个otu序列表;
b)丰度文件表格需要带表头和列名,每一列为样本名,每一行为各种指标数据名,例如OTU、基因ID、身高、代谢物名称等。
c)请提交txt(制表符分隔)文本文件或者.csv文件。操作方法为:全选excel中的所有内容(ctrl+A),复制到记事本中,将记事本文件另存后上传该文件。

image

※传完文件后一定要填写说明书下方的分组信息!否则无法绘图。

Step 2:调整参数

2.1 分组信息:需要对所有样品进行分组。在说明书下方,本网站支持在线修改分组名称的功能。可在线输入(方式一)和手动粘贴(方式二)(绘图前务必检查分组名称)。

image

2.2 perplexity:perplexity为困惑度,由用户指定,应该小于(nrow(X) - 1)/3.困惑度越小,得到的聚类簇越多,越分散;困惑度越大,得到的聚类簇越少,越集中。
2.3 元素大小:显示元素的圆点图形大小;
2.4 椭圆粗细:按需求自行设置
2.5 是否显示标签:按需求自行设置
2.6 标签大小:按需求自行设置
2.7 是否添加椭圆:
椭圆一:按照正常计算方式得到分组椭圆(有些结果可能无法添加分组椭圆)
椭圆二:对无法正常添加分组椭圆的数据强行添加分组椭圆。
否:不添加分组椭圆(如下图)

image

Step 3:下载文件
根据个人需求进行参数调整后点击运行后等待5-10秒即可下载结果,平台提供PDF格式的矢量图下载。

Step 4:作图后处理
TUTU云平台提供的是PDF格式的矢量图,可通过矢量图处理软件(Inkscape或AI)进行编辑和调整(如:文字字体,文字大小,图片分辨率等)。图形处理软件和使用方法可扫描文后的二维码添加小编微信获取。

写作建议
t-SNE analysis was performed on Tutools platform (http://www.cloudtutu.com), a free online data analysis website.
Fig A: 2-dimensional projection via t-SNE of the sequence embedding space from 14,520 KEGG 16S sequences. The position of each sequence (points) are colored based on their phylum designation. Fig B: t-SNE projection of sequences that belong to different genera within the same family. (参考文献:16S rRNA sequence embeddings: Meaningful numeric feature representations of nucleotide sequences that are convenient for downstream analyses)

你可能感兴趣的:(在线作图丨数据降维方法⑤——t-SNE(t-Distributed Stochastic Neighbor Embedding))