Nat Methods | 细胞级表达图谱匹配测序和病理图像,发现更多结构细节
原创 骄阳似我 图灵基因 2022-08-25 13:19 发表于江苏
收录于合集#前沿分子生物学技术
撰文:骄阳似我
IF:47.99
推荐度:⭐ ⭐ ⭐ ⭐ ⭐
亮点:
① 空间分辨转录组学(SRT)提供接近甚至优于单细胞分辨率的基因表达,同时保留测序的物理位置并且还提供匹配的病理学图像。然而,由于每个测序单元中的浅覆盖和保持测序位置所需的额外实验步骤,SRT表达数据受到高噪声影响。
② 可以利用来自测序物理位置的信息以及相应病理图像中反映的组织来消除这种噪声。本文基于匹配位置和成像数据开发了Sprod方法,以估算准确的SRT基因表达。
③ 本文全面验证了Sprod方法,并证明其优于以前用于消除单细胞RNA测序数据中drop-out的方法。在通过Sprod进行插补后,差异表达分析,途径富集和细胞间相互作用推断更准确。
近期,有研究人员在Nature Methods杂志上发表了一篇名为“Sprod for De-noising Spatial Transcriptomics Data Based on Position and Image Information”的文章,开发了一种Sprod方法,通过利用每个测量的位置信息和相应的成像数据来估算准确的基因表达。在SRT数据集上系统地验证了Sprod的准确性和鲁棒性,还展示了其优于现有的scRNA-seq数据drop-out去除方法。将Sprod应用于几个真实的SRT数据集揭示了一些生物学特征,这些特征以前由于数据中的噪声没有被发现,表明处理SRT数据中的噪声是无偏见地发现新生物知识的关键的第一步。
为了消除SRT数据中的噪声,本文开发了Sprod,可校正由位置和成像信息引起的数据中的噪声。Sprod分两个阶段运行。在第一阶段,Sprod利用珠子/斑点的空间位置来确定斑点/珠子的邻域以借用信息。然而,必须考虑该邻域中斑点/珠子的细胞类型异质性。因此,借用信息仅限于相同类型和/或相似表达谱的细胞。在第二阶段,通过图边缘跨珠子/斑点借用来自表达数据的信息来生成去噪基因表达。
本文进行了仿真分析以评估Sprod性能。模拟了5000个点的数据集。斑点分为三种细胞类型:A,B和C。首先检查由Sprod构建的空间/图像相似性图,该图正确连接了空间接近的相同细胞类型的点。评估度量定义为降噪%=1–SAE(去噪)/SAE(原始)。本文尝试了此数据集上所有调整参数的组合。结果表明三个调整参数R(定义点邻域的半径),K(潜在空间的维度)和Lambda(控制聚类稀疏性的缩放参数)对降噪具有关键贡献,而其他调整参数影响较小。总的来说,K=10效果最好。
在实践中,模拟数据仍然与实际数据集不同,实际数据集也彼此不同,不可避免地需要调整参数。建议从模拟数据集中的最佳参数集开始,并使用随Sprod软件提供的两组诊断图来选择最佳参数集。第一个诊断图在物理x-y坐标上显示相似度图的斑点/珠子和边缘,这可以告知该图是否正确捕获了组织组织模式。另外两个诊断图显示成像特征空间中的斑点/珠子和相似性图(通过t-SNE和均匀流形近似和投影(UMAP)进行降维)。
图1:空间分辨转录组数据去噪的Sprod。
Sprod首先应用于10X Visium卵巢癌数据集。与原始表达相比,所有斑点的CD45 IF强度和去噪PTPRC表达的散点图显示出良好的总体相关性。覆盖了每个斑点的CD45 IF和PTPRC基因表达相对于其物理位置的差异,对于大多数斑点,Sprod确实大大降低了CD45 IF强度与PTPRC基因表达之间的偏差。另外使用Sprod进行了一项对照分析,证实了Sprod通过正确地从外部图像/位置信息借用信息而不是仅通过平滑表达数据来消除噪声。
接下来调查了一个Visium人类淋巴结数据集。在通过Sprod校正后,调整的IgD表达显示出与H&E染色图像更一致的空间模式。与原始IgD表达相比,Sprod校正的IgD表达形成了更独特的环状图案,并且与地幔区的结构更加一致。为了量化Sprod降噪的改善,计算了IgD与其他几种基因的表达相关性。CD1c和CD20/MS4A1也是外套膜区的标志物,应与IgD呈正相关;相反,CD3跨越滤泡周围/滤泡间T细胞区,应与IgD呈负相关;对于Sprod校正表达,CD1c/CD20与IgD呈正相关更强,CD3与IgD也呈更明显的负相关。
图2:Visium和Slide-seq数据集上的Sprod验证。
使用Sprod可以更准确地进行空间变化的基因检测。
空间可变基因的检测是对SRT数据进行的最普遍的分析之一。检查小鼠海马Slide-Seq数据,测试Sprod校正后空间可变基因的检测是否更有意义。由于Slide-Seq的分辨率较高及小鼠海马区神经元细胞的性质,本研究中的Slide-Seq珠子捕获了神经元的不同部分。通过每个珠子文库大小对来自每个珠子的表达数据进行归一化,理解归一化的基因计数反映了不同神经元区域内mRNA转录物的相对富集。结果证明Sprod确实以生物学上有意义的方式解决了SRT表达数据中的drop-out和校正噪声。
接下来评估Sprod校正对全基因组人体内空间可变基因检测的影响。SpatialDE是专门为此目的而开发的,用于检测近端神经毡区域中比体细胞更强表达的基因。总体而言,Sprod校正在差异表达分析中实现了灵敏度和特异性的最佳平衡。进一步评估了这些空间可变基因富集的途径。对来自Sprod的空间可变基因中富集的基因GO途径的检查表明,校正的数据导致发现更多指示突触功能的基因/路径(与原始数据相比),与这些mRNA转录物在近端神经纤维区域的富集一致。
图3:去噪后空间差异表达基因的检测更准确。
Sprod有助于推断空间蜂窝通信。
CellChat用于检查肿瘤细胞和SI细胞之间的相互作用。进一步将肿瘤和非肿瘤区域分为四个部分:区域A(不与SI细胞相邻的肿瘤细胞),区域B(与SI细胞相邻的肿瘤细胞),区域C(与肿瘤细胞相邻的SI细胞)和区域D(不与肿瘤细胞相邻的(SI)细胞)。去噪数据表明,与原始表达相比,肿瘤SI区域界面周围的PD-L1和PD-1更明显的共表达。同样明显的是,PD-L1/PD-1的表达沿界面不是均匀高的,而是具有局部富集模式。
为了客观地量化B/C区域中PD-L1/PD-1的共表达,定义紧密的斑点对,其中一个斑点位于B区域,另一个斑点位于C区域。在来自Sprod去噪数据中,当相邻SI区域表现出更高的PD-1表达时,肿瘤区域PD-L1的表达变得更高。但是当PD-L1在肿瘤细胞区域变得更高时,SI区域中PD-1的表达仅略高。这种单向观察是有趣的,也是非常合理的,因为肿瘤细胞将响应来自PD-1+T细胞的细胞毒性压力而上调PD-L1表达。该分析揭示了PD-L1/PD-1途径的相互作用之间的因果关系。总体而言,Sprod可以更准确地推断小区间通信。
图4:使用Sprod校正的表达数据,细胞间通信的推断更准确。
虽然目前的研究集中在Visium和Slide-Seq,但Sprod也适用于更新的技术,例如HDST和Seqscope。值得注意的是,HDST和Seq范围实现了比Visium和Slide-Seq高得多的分辨率。此外,三维(3D)空间转录组学技术也正在出现,如STARmap。通过少量修改,Sprod采用的图形构建模型很容易扩展,以考虑3D空间中的空间依赖性。
本文开发了Sprod来估算SRT数据中准确的基因表达。SRT数据中存在大量噪声会严重影响下游分析,并导致严重的偏差和误导性结论。Sprod采取了一种利用SRT的物理位置和匹配的成像数据来消除此类噪声的方法,从而使SRT数据的分析和解释更加可靠和准确。从技术上讲,位置/成像相似性图是通过基于概率密度的方法的创新稀疏图构造方法获得的。该建模策略可以容忍高维数据噪声,保留成对度量并将成像和位置特征集成到统一框架中。本文系统地验证了Sprod,并且其性能被证明优于仅设计用于去除scRNA-seq数据中的drop-out的算法。
教授介绍:
王涛
UT西南医学中心人口与数据科学系定量生物医学研究中心助理教授,王博士的研究围绕使用最先进的生物信息学和生物统计学方法来研究肿瘤免疫学对肿瘤发生的影响,各种癌症的转移、预后和治疗反应。王医生隶属于Harold C. Simmons 综合癌症中心。王博士2011年毕业于中国北京大学,师从德州西南大学杨燮和肖光华。在获得博士学位后,他成为了UTSW 的助理教授。
参考文献:
Wang, Y., Song, B., Wang, S.et al.Sprod for de-noising spatially resolved transcriptomics data based on position and image information.Nat Methods19, 950–958 (2022).