hello,周四了,马上五一放假了,不知道大家有没有想去的地方,可恶的疫情,喜欢的人都不让见了~~~~。
今天我们学习一个小知识,那就是单细胞数据和单核数据比对上的区别,之前在分析项目中,因为信息的不及时,很多单核数据当成普通的转录组进行分析了,当然结果有问题,然后换回单核比对程序,基因数和细胞数就有了明显的提升,这个是为什么??有人说单核很多都是未剪切的片段,所以要计算内含子,但这种解释流于表面,我们要深入了解其中的原理和方法,参考网址在Gene Expression Algorithms Overview
Genome Alignment
Cell Ranger 使用比对软件 STAR,它对基因组的reads执行剪接感知比对。 然后,Cell Ranger 使用转录注释 GTF 将读取分为外显子、内含子和基因间,以及读取是否(可靠地)与基因组对齐。 如果至少 50% 的读数与外显子相交,则读数为外显子;如果读数为非外显子并与内含子相交,则读数为内含子,否则为基因间。
MAPQ Adjustment
对于与单个外显子基因座对齐但也与 1 个或多个非外显子基因座对齐的reads,外显子基因座被优先考虑,并且读取被认为是准确地映射到具有 MAPQ 255 的外显子基因座。
Transcriptome Alignment
Cell Ranger 通过检查它们与转录组的兼容性,进一步将准确映射的外显子和内含子reads与带注释的转录本对齐。 如下所示,读取是根据它们是有义还是反义以及它们是外显子、内含子还是具有与该基因相关的转录注释兼容的剪接模式进行分类。
默认情况下,Cell Ranger 使用带有正义比对(并忽略反义比对)的转录组(蓝色)读取进行 UMI 计数。 如果读取与相反链上的转录外显子有任何比对且no sense alignments.,则将其归类为反义(紫色)。
在某些情况下,例如当检测的输入由细胞核组成时,未剪接的转录本可能会产生高水平的内含子读数。 要计算这些内含子读数,可以使用选项 include-introns 运行 cellranger
计数和 cellranger multi
pipelines。 如果使用此选项(默认设置为“false”),任何以有义方向映射到单个基因的读数 - 包括标记为转录组(蓝色)、外显子(浅蓝色)和内含子(红色)的读数- 结转至 UMI 计数。 在这种情况下,Cell Ranger 现在会忽略反义读取,这些读取被定义为与相反链上的整个基因比对且没有正义比对的任何读取。 因此,指标“Reads Mapped Confidently Mapped to Transcriptome”和“Reads Mapped Antisense to Gene”现在将反映 reads 准确地映射到外显子区域以及内含子区域。
The include-introns option eliminates the need for a custom "pre-mRNA" reference that defines the entire gene body to be an exon.
此外,如果读取仅与单个基因兼容,则认为它是唯一映射。 只有唯一的映射读取被转移到 UMI 计数。
Note, in the Web Summary HTML, the set of reads carried forward to UMI counting is referred to as "Reads mapped confidently to transcriptome".
这就是单核和普通转录组的比对区别,生活很好,有你更好