10X空间转录组数据分析之Pattern recognition and clustering

hello,我们接上一篇,10X空间转录组空间高变基因分析之SPARK,上一篇我们利用一些方法,找到了很多显著性的空间高变基因,那么这些基因在我们分析数据的时候起到了什么作用呢?今天给大家带来空间高变基因的分析思路,文献在Spatiotemporal heterogeneity of glioblastoma is dictated by microenvironmental interference,这一篇我们只分享其中空间高变基因分析的部分。

之前分享了很多单细胞数据寻找模块、programs的方法,大家可以参考我之前的文章10X单细胞(10X空间转录组)数据分析之NMF寻找转录programs、10X单细胞(10X空间转录组)数据分析之主成分分析(PCA)与因子分析(NMF)、10X单细胞(10X空间转录组)数据分析总结之各种NMF、10X单细胞(10X空间转录组)数据分析之细胞等级(分数)、10X单细胞(10X空间转录组)之NMF的实际运用示例(探索肿瘤特征),10X单细胞(10X空间转录组)数据分析之约束非负矩阵分解(cNMF)等等,单细胞的方法很多都可以直接用在10X空间转录组的分析上,只不过解释的意义有不同,接下来的内容,主要针对空间转录组寻找programs。

我们从找到了空间高变基因的部分开始说起,First, we sought for spatially exclusive expressed genes also referred to as spatial expression (SE) using a generalized linear spatial model implemented in the SPARK algorithm.Through this approach we analyzed each tumor separately and selected all significant SE genes(threshold p corrected by Benjamini–Hochberg p<0.001),看来主要研究癌症样本的空间高变基因,也就是要进行spatial pattern analysis,接下来就是重点。

空间高变基因的共定位分析,To unravel the spatial arrangement and detect co-localized patterns, we estimated spatial co-localization by a Bayesian spatial correlation model of all recurrent SE genes。This resulted in a correlation matrix which was hierarchically clustered and revealed 5 distinct patterns.依据空间高变基因的共定位分析(方法是Bayesian spatial-correlation approach,贝叶斯算法在很多领域都有广泛的运用,有能力的童鞋最好多多学习一下),识别空间基因表达的模式,这样的话,识别的空间模块就代表了空间区域划分。

图片.png

识别的空间模块就可以表征空间数据,尤其是空间的细胞过渡状态。The lineage states,predominantly NPC-like and OPC-like, were present in pattern 3, while the radial glia overlapped with reactive and lineage patterns。

图片.png

当然,对模块基因的研究分析,可以看到模块主要体现的是什么细胞的特征(例如hypoxia and immune-related genes),We further summarized these patterns into three major modules based on our findings from our first approach. The two reactive patterns (hypoxia and immune-related genes) showed distinct from each other while developmental subcluster (OPC and NPC) revealed a stringer overlap.怎么样,很好的方法。

当然可以再次延申,Identification of shared transcriptional programs and gene expression modules across patients。联合分群的差异基因进行分析。

分别对来自每个肿瘤的恶性spot进行了聚类分析(SNN)。选择有意义的cluster并通过各种cluster方法进行基准测试。对于每个单独的cluster,通过以下标准估计显着表达基因的数量:平均对数倍数变化增加 2.5 倍且相应 p 值低于 0.05(Wilcoxon 秩和检验的错误发现率)的基因。为了确保单个cluster不重叠,合并了 Jaccard 索引高于 70% 的cluster。每个cluster的基因被用作进一步处理的cluster signatures。在下一步中,使用 Jaccard 索引和丢弃索引低于 0.2 的cluster来估计cluster相似度。接下来,提取了在所有簇中超过 70% 的基因,以识别常见的表达特征基因。通过平均连锁对特征基因进行层次聚类,我们确定了包含 309 个基因的六个模块。我们通过 k-Means 和 Partitioning around Medoids 对聚类进行基准测试,其中最佳 k 是通过间隙统计估计的 。

图片.png

总结一下, 空间高边基因 + 共定位分析 联合表征空间数据,下一篇我们延申10X空间转录组的CNV分析和轨迹(速率)分析。

生活很好,有你更好

你可能感兴趣的:(10X空间转录组数据分析之Pattern recognition and clustering)