作者:尧小飞
审稿:童蒙
编辑:amethyst
01 背景介绍
目前在NGS的科技服务市场上单细胞转录组和三代是最火的两个方向,也是由于工业技术升级带来的研究的新方向和新视野(单细胞分筛技术和单分子全长测序)。单细胞技术为我们研究细胞的异质性、细胞发育、肿瘤微环境、精准医疗带来了巨大的进步,大大促进了研究从混合细胞到单细胞的水平的进步,进一步揭示了生物体的微观视野的变化规律。单分子全长能够在不打断的前提下直接测mRNA或者DNA全长序列,避免了短序列的拼接可能出现的错误,发现了大量之前未发现的新的转录本。
那么有没有办法能够将两者的技术结合起来,在单细胞层面研究其全长转录本的变化规律?答案是肯定的,早在2018年10月的时候Ishaan等人就在Nature Biotechnology(https://www.nature.com/nbt)上发表了单细胞全长转录组的研究方法,作者主要是利用10xGenomics公司的单细胞分筛平台,得到单个细胞的全长cDNA文库,然后用Pacbio平台的建库技术进行三代建库,然后测得单个细胞全长转录本,通过研究不同亚群细胞的转录本特征,发现了亚群特异的转录本,这从另外一个视野研究了细胞的异质性。
虽然上面解决了没有单细胞全长转录本的问题,但是Ishaan等人的方法将会具有一个巨大的成本问题,三代和单细胞转录组本来成本就有些较高,两者结合起来,如果还要用三代定量的话,一个样品初步预计也得快20万了,因此此方案不太适合推广。虽然目前三代供应商Pacbio和ONT都有单细胞转录组解决方法,但都有面对成本的问题,因此亟需一个低成本的单细胞全长转录本或者类似的方案。
Rickard团队是单细胞领域中鼎鼎大名的团队,在10xGenomics平台问世之前,他们团队开发的smart-seq是单细胞转录组领域中绝对的王者。时隔7年,2020年5月6日,Rickard团队在smart-seq2的基础上,通过改进开发了smart-seq3技术(Single-cell RNA counting at allele and isoform resolution using Smart-seq3)(https://www.nature.com/articles/s41587-020-0497-0),该技术就是低成本的单细胞全长转录组的解决方案,并将该技术发表在Nature Biotechnology 。
02 Smart-seq3建库基本原理
Smart-seq3既然号称能够在转录本水平研究单细胞的异质性,那么它究竟是如何达到的呢?我们首先看看其建库原理。原理图如下:
从上面的建库原理图来看,其建库方式基本上与smart-seq2一致,最大的不同在于在Tn5酶的tag后面添加了UMI序列(上图中的红色x号表示转录本的突变位点),其建库流程如下:
- 通过oligo-dT priming钓取含有polyA尾巴的mRNA。
- 通过TSO(template-switching oligo)进行反转录,合成全长cDNA文库,得到A1序列。TOS序列构成:Tn5 motif 11 and a novel 11-bp tag sequence, followed by an 8-bp UMI sequence and three riboguanosines.
- 通过PCR扩增,将A1序列进行扩增,扩增多条序列。
- tagmentation,通过Tn5-based进行tagmentation,然后构建测序上机文库。
- 通过UMI序列区分是否是internal reads,挑选5‘带有UMI序列,构建延伸转录本。
在构建转录组的过程中,主要是挑选5’UMI序列的双端序列进行构建;由于5‘都是一样的,但是3’不一样(绿色的条块),因此可以将具有相同的5‘端的序列,不同3’的序列进行合并,延伸转录本,得到更长的转录本。这种方式得到的转录本当然没有Pacbio等三大方法得到的全长转录本长、全,但是相对于普通单细胞转录组来说,转录本长度大大增加了,提供了单细胞水平的转录组的特征。下图为Smart-seq3文库长度分布(其文库长度分布在600-2000bp之间):
03 Smart-seq3与 PacBio 结果比较
既然smart-seq3是为了达到转录组水平开发的技术,那就需要比较一下它与真正的三代技术具体有什么差异,到底有什么区别?作者构建了369 individual primary mouse fibroblasts ( F1 offspring from CAST/EiJ and C57/Bl6J strains ) 文库,然后构建全长转录本,并且同时使用smart-seq3构建的cDNA文库进行Pacbio建库,建库用的是SMRTbell Template Prep Kit 1.0-SPv3试剂盒,可以构建500–2,000 bp的文库, Circular consensus sequencing (CCS) reads were generated from raw reads using the SMRTlink pipeline。
注:Summarizing the numbers of RNA molecules (x axis, log 10 ) reconstructed to different lengths (in base pairs, y axis), showing only molecules additionally assigned to a unique transcript isoform. In total, the 1 million longest reconstructed RNA molecules are shown from one experiment with 369 mouse fibroblasts, with molecules shown in descending order.
上表格展示了Smart-seq3的转录本长度和数目分布的数据,从上图可以看出,smart-seq3可以构建较长的转录本,可以从转录组水平上研究单细胞的异质性。与PacBio的数据相比, 有54,302 RNA分子在smart-seq3和Pacbio两种平台都能检出;smart-seq3检出的全长转录本数目占Pacbio的 46% 。如下图a所示。
具体就 Col1a2基因来说,该转录本长度为2.3kb, Smart-seq3构建转录本长度为1.9 kb,Pacbio的转录本长度为2.267kb。
04 Smart-seq3其他方面的优势
今天在这里主要介绍了Smart-seq3构建全长转录本的特点,没有对其他的优点进行详细介绍,如果对此感兴趣,可以翻一翻原文。其实Smart-seq3在Smart-seq2的基础上有较大的技术改进和提示,比如另外一个比较重要的方面就是SNP分型的问题,比如做测试的 CAST and C57 alleles,Smart-seq3的结果较Smart-seq2的结果相关性有显著性的提高,由之前的 0.79和0.68提升到了0.94和0.75。
另外Smart-seq3的基因检出较Smart-seq2有显著性的提高,而且编码蛋白、lncRNA检出也有较高的提高。
05 总结
总而言之,Smart-seq3与Smart-seq2相比较,无论是在基因分型、转录本长度、编码基因和lncRNA基因的检出数来说,都具有了较大的提升。特别是Smart-seq3可以构建全长转录本,让研究者可以研究单细胞水平上的转录本特性,虽然转录本检出只有Pacbio的46%,但是其优点在于可以在较低的成本情况下,研究单细胞水平的转录本特征。
目前单细胞水平的全长转录本解决方案较多,比如Pacbio和ONT都推出了相应的解决方案,但是三代+单细胞的方案难以企及的成本,影响了其推广应用;Smart-seq3在一定程度上的解决了此问题,可以在目前进行推广应用;当然如果用Smart-seq3+三代的话,其构建的转录本将会更完整。
关注“生信阿拉丁”微信公众号,第一时间查收“新款”生信学习干货。