单细胞分析流程之Cell Ranger结果解读
各位小伙伴大家好!
上期我们说到了Cell Ranger的下载、安装以及常规的使用方法,这期我们就来了解读一下这些结果吧~
01
首先我们了解一下运行完Cell Ranger之后,在哪里可以看到生成的结果。
还记得我们在运行Cell Ranger的时候有个参数--id吗?--id=XXX,这里的XXX就是最终生成的目录,该目录中保存了运行过程中所有的中间文件、日记文件以及最终的结果。如下图:
其中outs目录中即保存的最终结果,也是我们最后需要的。当然如果中间出现了报错,我们也可以通过查看日志文件,例如:_log,查看具体的报错原因,随后进行修改即可。
02
结果目录"outs"
首先我们看一下outs目录下的文件结构,如下图:
这些结果中主要分成了两部分:1. 集群中可以使用的结果(具体的内容可以参考上期文章“单细胞分析流程之Cell Ranger”);2. 网页版报告。
本期的重点是解读网页报告中的内容。
03
网页报告"web_summary.html"**
为了快速了解和方便的了解Cell Ranger定量之后的结果,我们首先会查看html文件,即web_summary.html,了解初步情况。如下图:
可以看到该网页中主要分成了两部分:Summary和Analysis.
04
"Summary"**
1. 异常结果警告
如果数据中存在异常情况,网页的上面会出现黄色的警告信息。小编这次跑的结果完全正常,所以找了一下之前遇到警告信息,如下图:
当遇到这种报错情况的时候我们不要慌,首先看一下是哪些值异常,对数据有无影响以及解决办法。在Detail部分会详细解释这个参数是什么,以及解决办法。例如上图中说到在运行Cell Ranger的时候可以调用--force-cells参数,小编之前也试过,这个参数的修改需要不断的尝试,所以也没有固定的值
当然如果这些报错信息并不影响结果,我们是可以用这个结果继续往后分析的~
2. 细胞和基因数的统计
随后就是查看这次分析中捕获到的细胞数以及基因数的情况,从这里就能大概知道数据的情况。
小编也做过好多10X的数据,一般捕获的细胞数都是5,000-10,000,平均的基因数大概是1,200-15,00,大家可以看看自己的数据是否也在这些范围内。如果这些值都是在可接受的范围,那么就可以进入下一步的分析啦~
3. 细胞的选取
随后就是细胞的选取了(也是一个相当重要的图),帮助我们更加直观的筛选细胞(如下图)
先我们先来看一下上方的折线图怎么看:
Y轴是每个细胞中UMI的值,X轴是单个细胞的按照UMI大小的排序(降序),所以这个图中的曲线是下降的趋势。蓝色的线是选取的细胞(和**2\. 细胞和基因数的统计**中的细胞数是一致的),灰色的线是背景。
正常的数据来说会有两个下降的趋势(如下图),第1个下降的趋势:区分完整细胞和背景物质(因为细胞和其他物质相比,真正细胞中会有更多的UMI,而其他物质可能没有或者由于一些污染能捕获到少量的转录本,所以会出现第一个下降的趋势);第2个下降的趋势:区分细胞的质量,捕获率低或细胞破碎(这类细胞中基因数会很少,导致UMI数也少),而正常的细胞中UMI多且分布比较接近,所以质量好和不好的细胞在UMI上也会存在很大的差异,随后就出现了第2个下降趋势。
当数据出现了这两个下降趋势,且在蓝色区域的线条比较平稳时,也能说明我们的数据质量好~
4. 测序结果统计
继续往下走,下一部分是测序的信息,包括总的reads数目以及一些质控的指标,一般情况下Q30>90%表明质量是相当不错的。
当我们看数据的时候,如果遇到一些指标不太明白是什么意思,大家可以点击左上角的?,随后会列出下列指标的解释。
5. 比对结果统计
报告中除了会给出测序信息以外,也会给出与基因组的比对信息,主要包括Genome、Intergenic、Intronic、 Exonic、Transcriptome、Antisense to Gene(见下图)。
虽然测序和比对结果都是一些常规的质控信息,当我们数据一切正常的时候,看这些指标可能没有那么重要,但是一旦我们的数据比较奇怪的时候,例如发现检测到的细胞数还行,但是基因数特别少,这个时候测序和比对结果就相当重要了!小编之前遇到一个数据就是检测到的基因数特别少,然后聚类的时候就结果很差,后来就返回去看这些质控信息,惊奇的发现很多reads都是比对到了基因间区!
所以测序的reads根本就没有落在基因上,导致了最终每个细胞检测到的基因非常少,然后再去继续往下找原因。
。所以呀,还是得多看数据,从那以后,数据下来小编都会先看看这些质控信息是否正常,才会继续往后做(质控也是做科研非常重要的一步呀~)
6. 样本信息
最后一部分就是样本信息啦(如下图)~
这一部分就是在运行Cell Ranger时候的参数信息,例如样本名、Chemistry(运行Cell Ranger时候我们没有设置这个参数,那么就默认选择auto:自动配置,在报告中会给出具体的类型,这个就是3' V3版本)、Reference以及Reference路径等等。这些信息的给出方便后面查找信息。
05
"Analysis"**
****介绍完Summary之后,下面就是Analysis.
1. 分群结果
左图:在TNSE中映射每个细胞UMI的值;右图:TSNE中分群的情况。
Cell Ranger做完定量之后呢,会默认拿已有的结果跑一下基本的分群,所以在看报告的时候我们也可以看一下这里的分群结果,心里大概有个数~
2. 基因差异表达分析
Cell Ranger除了做了分群以外,还找了每个群差异表达的基因,类似于Seurat中的 "FindAllMarkers"。
这里比较好的是,上面Graph-based如果选择K=2,那么这里差异基因列表也会随之变动。所以如果觉得Cell Ranger的分群结果已经很符合自己的预期了,完全可以就用这个结果了,而且还可以自己选择分群的个数(直接网页挑选,人性化呀)
3. 饱和度评估
对 reads 抽样,计算不同抽样条件下检测到的转录本数量占检测到的所有转录本的比例(测序饱和度),如下图:
曲线末端接近平滑状态说明测序达到饱和,因为继续增加测序量,检测到的转录本也不会有特别大的变化
对 reads 抽样,计算不同抽样条件下检测基因数目的分布,如下图:
同样地,曲线末端接近平滑状态说明测序达到饱和,因为继续增加测序量,每个细胞检测到的基因数也不会有特别大的变化
好啦,这期就先讲到这里,我们下期再见~