10X单细胞(10X空间转录组)整合分析之nature文献思路整理

hello,大家好,今天来分享一篇nature文献的10X单细胞样本整合分析的方法,关于多样本整合分析,之前我的公开课和宣讲课讲了很多,听过的都应该有一些整合的思路,今天我们来实地运用一下,看看高分文献是如何进行整合分析,文献在Cross-tissue organization of the fibroblast lineage,2021年5月发表于nature。

其实关于10X单细胞在做多样本批次矫正的方法有很多,我之前公开课讲过,这里给大家放一张图:

zhaoyunfei.png

但是光知道方法还不行,还需要灵活的运用,不能照搬方法,而且不同的样本类型需要不同的批次矫正方法,今天我们来看看这篇nature的运用方法。

Dataset integration for steady- and perturbed-state atlases.(两种数据,每种数据多个样本之间的整合分析)。

第一步,individual healthy and diseased Seurat objects were merged separately into two different steady- and perturbed-state objects, respectively.(单样本的分析过滤我们这里就不介绍了,之关注整合的分析)。这里可以看到,健康和疾病的样本单独merge起来,相信merge的方法大家应该都不陌生。

第二步,Each of these merged objects was normalized (function NormalizeData, method = ‘LogNormalize’, scale.factor = 10,000), and scaled to regress out the stress gene signature (computed using Seurat’s AddModuleScore) of subpopulations affected by tissue dissociation methods before we performed PCA for the most variable genes(这个地方大家注意到没有,健康和疾病的样本merge起来之后有两个objects,然后把两个merge起来的对象当作单样本进行分析,这里完全没有进行批次的去除,简单merge了起来),不知道大家考虑过这么问题没有,平行样本merge起来都有批次的现象到底是因为什么???原则上应该没什么批次效应。

第三步,merged objects were next used for batch effect correction and integration using Harmony。两组样本当作两个样本,而这“两个样本”之间运用harmony进行矫正。(怎么样,大家是不是也是这样做的呢?)

有关harmony,我们需要知道一些参数的意义。

theta :Diversity clustering penalty parameter. Specify for each variable in group.by.vars. Default theta=2. theta=0 does not encourage any diversity. Larger values of theta result in more diverse clusters.这个值很重要,我们一般选择默认值,但是这篇文章的作者将这个参数设置为1,参数越大,导致more diverse clusters。
lambda:Ridge regression penalty parameter. Specify for each variable in group.by.vars. Default lambda=1. Lambda must be strictly positive. Smaller values result in more aggressive correction(值越小,矫正程度越高,那就是过矫正了)。
sigma: Width of soft kmeans clusters. Default sigma=0.1. Sigma scales the distance from a cell to cluster centroids. Larger values of sigma result in cells assigned to more clusters. Smaller values of sigma make soft kmeans cluster approach hard clustering. 深入理解下去才会发现,需要知道的真的很多。其他的参数大家多了解了解吧。

第四步,then provided the top 20 harmony dimensions as an input for UMAP and visualized the first two UMAP dimensions at a clustering resolution of 0.1 for the Cd45− atlases。(这里就是常规的下游分析了)。下游分析包括seurat常规的下游分析,其中也用到了Seurat的打分函数来计算Gene expression scores,函数是AddModuleScore,我之前分享过,文章在Seurat包的打分函数AddModuleScore,这个函数很重要,10X空间转录组分析也会用到。

大家多多总结思路方法,多多学习

生活很好,等你超越

你可能感兴趣的:(10X单细胞(10X空间转录组)整合分析之nature文献思路整理)