10X Genomics V(D)J测序:免疫分析从零起步学(三)

哈啰大家好!~是我是我!我又来给大家更新了!

上回书说到,测序数据下机经过了配套的分析流程cellranger的洗礼之后,生成了一系列的结果文件。闲言少叙,这一期我们就来看这些结果文件的解读。

首先要说的第一个是总览的summary。这个summary有两种呈现方式,一个文件是网页web文件,另一个是个Excel表。可读性来说,还是网页文件方便查看一些。

以10X官网上的示例数据为例。网页总览结果打开之后大致呈现为这个样子。如果数据本身有非常大的问题,某个指标严重不合格的话,在这个页面上方会有一个橙黄色的warning。

整个summary有两个选项卡,Summary选项卡就展示一些基本的指标,大多和数据质量或者测序质量有关。涉及到reads条目,基因数目,细胞数目,测序饱和度,比对百分率等各类信息。具体每个数据代表什么信息,在分类选项卡旁边的小问号上点击一下,下拉菜单里会有非常详细的解释。

另外一个Analysis选项卡里面,则展示了这个样本中,出现频率最高的前十个克隆型,以及它们的CDR3序列等详细信息。这部分结果在可视化程序中展现的更好,因此这里先不细讲。

接下来,我们看下结果文件中的这一堆表格。

先看clonotypes.csv,这个表格里面是该样本每一个clonotype的描述,一共包含五列。

clonotype_id:是这个样本内部依次排下去的序号,不同样本之间不通用!!!不通用!!!就比如西班牙有个人叫Mary,德国也有个人叫Mary,但是她俩不是一个人。所以相同clonotype_id在不同样本之间不代表同一克隆型,这个一定要切记。

frequency:这个表示这个克隆型在样本中的多少个cell中被检测到,侧面部分反映了这个BCR的丰度。为什么说是部分反映呢,因为受到测序深度等方面的限制,可能会miss一些高频克隆型,因此这个参数有意义,同时也有局限性。

proportion:clonotype表达的细胞数占样本细胞总数的比例。

CDR3区域的氨基酸构成。

CDR3区域的核苷酸组合。

既然是亲妈级教程,我这里来简单说一嘴CDR3区域是啥。

如图,CDR3是V(D)J基因编码的核心区域,通常会包含V基因的一部分,然后D基因,还有J基因的一部分,因此是BCR或者TCR上最具有代表性的,最具有辨识度的一段区域,相当于一个人的脸。在绝大多数免疫研究中,会把CDR3序列作为定义和识别某一个特定BCR或者TCR的唯一依据。

metrics_summary.csv文件,和网页版的summary几乎是一回事儿,这里不讲。

接下来说一下这几个annotation.csv文件。这几个文件大同小异,侧重不同层面对数据进行注释和解读。以filtered_contig_annotation.csv文件为例:

怕大家看不清我分两部分进行截图。这个文件里面的内容就比clonotypes.csv文件丰富很多。列举了每一个细胞(barcode)所对应的clonotype的详细信息。提供了V基因和J基因的具体片段,但D区通常较短又突变较多,因此受技术限制,常常捕捉不到。

这里每一列的含义受篇幅限制就不一一给大家阐述了。但本着送佛送到西的一贯原则,我给大家指路官网的结果信息解读网址:https://support.10xgenomics.com/single-cell-vdj/software/pipelines/latest/output/overview 里面有非常详细的介绍,大家可以善用翻译软件,自行学习。

结果文件夹中的fasta序列文件,存储每个clonotype的contig序列或者consensus序列。consensus序列可以理解成这个样本里,这个克隆型的所有细胞的序列的统一。就是假如这个克隆型在这个样本里表达了十个细胞,和reference比起来,有九个细胞的某个位点都由A突变成了T,而剩下的一个是由A变成G,那么consensus序列的这个位点就是T。它不是reference序列,而是样本内部的一种统一,这样做能有效排除个别细胞中低频SNP的干扰。

最后,我想就clonotype的问题给大家多说一点儿。这部分也是我自己工作中确实遇到的困惑。在10X系统中,对于相同clonotype的定义是,CDR3区域的核苷酸排序完全相同。之所以用核苷酸不是用氨基酸,想必大家都能理解,因为有的氨基酸密码子不止一种。

但是在查看结果的时候我发现,有的clonotype是用重链和轻链的CDR3区域共同定义的,而有的clonotype是只用一条重链或者一条轻链(常见)定义的。针对这个问题,我写邮件问了10X总部(不得不说这段时间我英语写作能力被迫得到了极大的提升),得到了如下回应。

如图所示,clonotype-1和clonotype-2都是由两条链定义的,但因为测序深度和捕获效率等问题的限制,对于第三个clonotype,我们只捕捉到了其中的一条链。即使这条链与clonotype-1其中一条链相同,但因为另一条链的信息未知,因此还是将其识别为一个新的克隆型。所以,我们的结果数据中,其实理论上存在一部分假阳性。

除此之外,还存在一些多链克隆的结果,即一个clonotype包含多于两条链的情况。针对这个问题,10X官方给我的回应是:包含三条链的克隆型是一种自然生物界的正常现象,这种克隆型含量少,但在正常生理条件下确实存在。而如果clonotype包含更多链,比如4条或以上,那么就要考虑是技术问题或者人为误差。通常情况下,这种clonotype在cellranger3.1.0以上的版本中会被去除。

好了,不知不觉我又写了这么多。原本想这一次能把这个系列完结,但是可视化结果还没有说到,Loupe的使用也没有提到,转录组和免疫组的联动分析也没有说。毕竟我自己从入门到上手学了半个月有余,理解起来也不是一蹴而就的。所以还请各位看官多点儿耐心~我会好好的,尽量把我能想到的,都分享给大家的,笔芯~~

那我们就下一期再见咯!~古德拜!~

你可能感兴趣的:(10X Genomics V(D)J测序:免疫分析从零起步学(三))