论文解析-sciPENN

论文解析-sciPENN

  • 参考
  • 亮点
  • 背景
    • CITE-seq
  • 方法
    • 预处理
    • 模型
  • 实验评估
    • sciPENN能够准确预测scRNA-seq的蛋白质表达水平
      • 实验设置
      • 实验结果
    • sciPENN能够准确预测scRNA-seq的蛋白质表达水平-其他数据集
      • 实验设置
      • 实验结果
    • sciPENN准确预测marker protein的表达特征
      • 实验设置
      • 实验结果
    • sciPENN能够实现从CITE-seq数据到scRNA-seq数据的细胞类型迁移
      • 实验结果
    • sciPENN能够还原动态的蛋白表达模式
      • 数据集
      • 实验结果
      • 实验结论
    • sciPENN能够填充多个CITE-seq数据集中缺失的蛋白丰度
      • 实验设置
      • 实验结果

参考

Lakkis, J. et al. A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation. Nat Mach Intell 4, 940–952 (2022).

亮点

一个多功能工具,sciPENN,可同时解决以下问题:

  1. CITE-seq 和RNA-seq 数据整合
  2. 蛋白质表达水平预测
  3. 蛋白质表达水平插补
  4. 量化预测和插补的不确定性
  5. 从CITE-seq到RNA-seq 的细胞类型迁移

背景

CITE-seq

  • CITE-seq可以同时测量RNA和一组细胞表面蛋白的基因表达水平。由于蛋白质在功能上更直接地参与到细胞信号传导和细胞间相互作用,所以CITE-seq数据更有利于揭示细胞异质性及RNA-seq丢失的信息
  • 相比scRNA-seq,CITE-seq相对更贵
    解决方法:寻找RNA与蛋白质的关系,利用大规模参考数据集对scRNA-seq预测蛋白表达水平。

方法

预处理

对于每个CITE-seq和scRNA-seq数据集:

  1. 移除表达基因数量低于200的细胞
  2. 移除表达细胞数量低于30的基因
  3. 细胞 c 中的基因 j 表达水平 = Log ( 原始表达值 / 细胞 c 中所有基因表达水平之和 * 基因 j 在该数据集所有细胞中表达水平中位数 ),对每个基因和每个蛋白均执行此操作
  4. 筛选CITE-seq和scRNA-seq数据集中的共有基因
  5. 利用SCANPY中的 pp.highly_variable_genes 筛选高变异基因
  6. 对筛选后的数据进行 z-score 标准化
  7. 对于多个CITE-seq数据集进行融合,当一个细胞中有蛋白质无数据时,填充为0

模型

模型主要由输入模块、前馈模块、RNN构成:

  • 输入模块为:
    论文解析-sciPENN_第1张图片

  • 前馈模块为:
    论文解析-sciPENN_第2张图片

  • 整体架构:

    1. 预处理后的基因表达矩阵输入到输入模块,输出嵌入X1
    2. 将X1输入前馈模块中,输出嵌入X2
    3. 用X2更新H(H初始值为全0),将H输入RNN单元,输出更新的H
    4. 将X2输入下一个前馈模块中,输出嵌入X3
    5. 循环过程3和4,直至最后一个前馈模块,输出X*
    6. 用X2更新H,将H输入RNN单元,输出更新的h
    7. 用h分别计算蛋白丰度预测、预测区间稳定性、细胞类型损失函数

论文解析-sciPENN_第3张图片

  • 损失函数
    在这里插入图片描述
    在这里插入图片描述
    损失函数由蛋白丰度预测误差、预测区间稳定性、细胞类型损失函数三部分相加构成。

实验评估

sciPENN能够准确预测scRNA-seq的蛋白质表达水平

数据集 细胞数量 蛋白质数量 来源
人外周血单核细胞 PBMCs 161,764 224 Seurat 4 (GEO: GSE164378)
黏膜相关淋巴组织 MALT 8,412 17 https://www.10xgenomics.com/resources/datas ets/10-k-cells-from-a-malt-tumor-gene-expression-and-cell-surf ace-protein-3-standard-3-0-0

实验设置

PBMCs作为训练集,MALT作为测试集,利用scRNA-seq测试17个蛋白质表达水平

实验结果

  1. 克服不同组织数据的batch effect
    论文解析-sciPENN_第4张图片

结果表明sciPENN更好的将不同组织细胞同合在一起,说明能够克服batch effect。
2. 用Person相关系数和RMSE量化预测误差
结果表明sciPENN相关性最高,误差最低
3. 对比预测区间的覆盖概率
???
4. 对比蛋白表达丰度的真实分布于预测分布
结果表明sciPENN能够复原真实丰度的分布特点,以及三个聚类的特异性蛋白表达模式。
论文解析-sciPENN_第5张图片

sciPENN能够准确预测scRNA-seq的蛋白质表达水平-其他数据集

数据集 细胞数量 蛋白质数量 来源
单核细胞 Monocyte 37,212 283 8个样本,4个参与者 https://upenn.box.com/s/64c9fsex50g1bhv67893c pdg9c5jqjzo
H1N1流感数据集 H1N1 53,201 87 https://doi.org/10.35092/yhjc.c.4753772

实验设置

Monocyte:随机取4个样本作为训练集,剩余4个样本作为测试集。
H1N1:用来自Seurat 4 的PBMCs作为训练集,H1N1作为测试集

实验结果

Monocyte数据集为作者测得的,实验过程与结论与前一个数据集相似。

sciPENN准确预测marker protein的表达特征

数据集 细胞数量 蛋白质数量 来源
PBMC Seurat 4

实验设置

随机将一半样本作为训练集,剩余一半样本作为测试集。

实验结果

  1. 基于Seurat 4文献,获得CD8亚型的marker protein:CD45RA, CD44-2 和 CD38-1
  2. 对于每个蛋白,检查他们对应编码RNA基因的表达模式,发现仅依靠RNA-seq数据不能识别CD8亚型(图中Naive,TEM3,Naive 2)
  3. 画出marker protein的真实表达,鉴定他们特异性表达的细胞亚型
  4. 画出每个方法预测的marker protein的表达水平,对比他们与真实表达的预测误差,与细胞亚型特异性的刻画程度
    论文解析-sciPENN_第6张图片

sciPENN能够实现从CITE-seq数据到scRNA-seq数据的细胞类型迁移

论文解析-sciPENN_第7张图片

实验结果

和Seurat 4相比,sciPENN的细胞类型迁移准确性更高。

sciPENN能够还原动态的蛋白表达模式

数据集

来自Seurat 4 的PBMC数据集,样本被注射水疱性口炎病毒 (VSV) 载体 HIV 疫苗,数据集包含每个样本注射疫苗0天、3天、7天的CITE-seq数据。

实验结果

  1. 基于Seurat文献,已知CD169在CD14 monocytes, CD16 monocytes 和 cDC2 细胞中对疫苗有显著的反应:在疫苗注射3天后,CD169水平飙升;在疫苗注射7天后,CD169水平回归正常。
  2. 对比每个方法对这3个细胞类型中CD169表达水平的预测结果,与真实值的误差,以及对CD169与疫苗反应特点的还原程度。
  3. 利用Kruskal–Wallis test检测每个方法预测结果的显著性。
    论文解析-sciPENN_第8张图片

实验结论

sciPENN可以帮助识别刺激生物标志物,如这种疫苗免疫反应生物标志物。

sciPENN能够填充多个CITE-seq数据集中缺失的蛋白丰度

数据集 细胞数量 蛋白质数量 来源
COVID-19 Haniffa 647,366 192 Haniffa Lab
COVID-19 Sanger 240,627 192 Sanger Institute

实验设置

用这2个CITE-seq共有的protein作为训练集,分别将他们特有的protein作为测试集,评估sciPENN对CITE-seq数据集中缺失的protein丰度预测准确度。

实验结果

  1. 对比sciPENN和totalVI对这2个数据集细胞分布的batch effect克服情况
    结果表明sciPENN能更好融合不同样本,克服batch effect。
  2. 对比填充Haniffa数据集中缺失的蛋白,及填充Sanger数据集中缺失的Haniffa蛋白准确度
    结果表明,无论是误差还是相似度,sciPENN均表现更好。
    论文解析-sciPENN_第9张图片

你可能感兴趣的:(论文,深度学习,python,人工智能)