Nat Method | 判别分类用于scRNA的差异表达分析

A discriminative learning approach to differential expression analysis for single-cell RNA-seq

目前的方法用于scRNA数据分析遇到的问题是细胞数量众多。而且目前的分析方法大多基于gene counts的量化,因此不能分析individual isoforms.

Background

Isoform switch:
通过选择性剪接(AS),替代转录起始位点(aTSS)和替代转录终止位点(aTTS)产生不同转录物(gene isoforms)的能力是高等脊椎动物复杂性增加的主要原因。 绝大多数人类基因使用alternative isoforms:证据表明大约95%的multi-exon genes具有AS,约60%的基因至少有一个aTSS。ENCODE项目估计,平均每个基因具有6.3种同种型(3.9种不同的蛋白质编码同种型)。 因此,usage of gene isoform在许多生物过程中具有重要作用,包括发育,体内平衡,多能性和细胞凋亡。 此外,同种型通常是具有组织特异性,并且可以改变相应RNA或蛋白质的功能,细胞定位和稳定性。

Bulk RNA-seq经常被用于研究同型表达之间的动态变化。ScRNA数据中的isoforms annalysis 更加复杂,但是同样非常重要。针对bulk数据开发的工具依赖于对isoforms 的reads进行取样。在ScRNA中使用这些方法遇到的挑战之一是许多单细胞的数据来源于3'端转录组。

logistic regression:

  • 普通线性回归主要用于连续变量的预测
  • 逻辑回归用于离散变量的分类,主要用于分类问题,常用来预测概率

Transcript compatibility counts (TCCs)
TCC由Ntranos提出,与传统利用转录组或基因定量相比,TCC分析方法速度提升了两个数量级。TCC可由RNA-seq 数据量化软件 kallisto获得。

Result

本文中,作者对每个基因进行逻辑回归(logistic regression)从而通过对转录本的量化预测cell labels。
逻辑回归模型提供了用于区分细胞类型的转录组的线性组合。在基于experimental effect sizes的模拟中,逻辑回归的表现优于其他方法。

Performance of differential expression methods on simulations

转录本定量在生物学上是有重要意义的,但是某些情况却无法获得转录本。比如仅对转录组的3‘端进行测序。原因是相同的基因往往会共享相同的3' UTR,因此仅靠3'端测序无法将这些基因区分开来。因此,在本文中,作者测试了使用TCC进行逻辑回归的可能性。

作者测试了来自3个人T 细胞群体的10X 测序数据。基于逻辑回归能够识别纯化的CD45RO+ memory and CD45RA+naive T cell 群体中CD45的差异表达。而基于gene counts的逻辑回归无法区分不同的CD45。P值的分布表明尽管这两种方法都能够发现在整体上变化最大的基因,但只有基于TCC的逻辑回归能够检测到isoforms switch。


Power analysis of CD45

除了CD45之外,作者们也利用同样的方法找到了许多其他在memory T和naive T中具有isoforms switch的基因。


Differential genes between naïve and memory helper T-cells

Summary

Logistic回归对scRNA-seq非常powerful,因为它能够利用scRNA-seq实验中产生的大量细胞,并将isoforms switch的信息整合到基因水平的测试中。 它揭示individual isoform对基因水平表达差异的贡献,从而增强了结果的可解释性。可以利用这种方法同时对所有基因进行逻辑回归,以揭示表征细胞类型的gene marker。

Reference

  • Fast and accurate single-cell RNA-seq analysis by clustering of transcript-compatibility counts
  • Near-optimal probabilistic RNA-seq quantification
  • 逻辑回归

你可能感兴趣的:(Nat Method | 判别分类用于scRNA的差异表达分析)