单细胞RNA-seq (scRNA-seq)是一种有前途的技术,以表征和解剖细胞间的变化。然而,技术噪音和生物内在可变性的混合使得分离技术制品和真正的生物变异细胞特别具有挑战性。在下游分析之前,适当的检测和过滤出技术工件是至关重要的。在这里,我们提出了一个整合基因表达模式和数据质量的协议,以检测scRNA-seq样本中的技术构件。
1. Lab Equipment 1. C1 Single-Cell Auto Prep IFC (Fluidigm).
2. EVOS FL Auto Cell Imaging system (Life Technologies).
3. Illumina HiSeq 2500 system.
图1 scRNA-seq框架的质量控制(QC)说明。细胞可以根据基因表达模式分离成基因表达异常的细胞和主要群体的细胞。数据质量边界是通过允许一定百分比(例如,<5%)的主要种群细胞不能通过它们来确定的。技术工件被定义为无法通过数据质量边界的基因表达异常值。亚群细胞被定义为基因表达异常值,可以通过数据质量边界。
Kits 1. SMARTer PCR cDNA Synthesis kit (Clontech).
2. Advantage 2 PCR kit (Clontech).
3. Nextera XT DNA Sample Preparation Index Kit (Illumina).
2.3 ScRNA-seq Data 1. Raw scRNA-seq dataset (H1) can be accessed by Gene Expression Omnibus (GEO) with accession number (GSE64016).
2. The downloaded files from GEO are SRA format.
3. SRA toolkit (http://www.ncbi.nlm.nih.gov/Traces/sra/sra.
cgi?view¼software) can be used to convert files from SRA
format to FASTQ format via “fastq-dump” utility.
方法:
1.人类胚胎干细胞,将未分化的H1人胚胎干细胞(hESCs)培养于基质涂层组织培养板上的E8培养基中,每日使用37℃和5% (vol/- vol) CO2喂养。用0.5 mM EDTA每3-4天分裂一次细胞进行基础维持。在准备单细胞悬浮液之前 采用Accutase (Life ,用E8培养基洗涤一次,重新悬浮 在E8培养基中,密度5.0-8.0 105 cells/mL 对细胞的捕获。(H1 hESCs在NIH人类胚胎注册干细胞注册,批准号:NIHhESC-10-0043).
2.单细胞捕获和文库准备。5000-8000细胞装载在中等尺寸(10-17 μm)的单细胞自动Prep IFC (Fluidigm)上。利用EVOS FL自动电池检测了捕获效率成像系统对IFC板中心的96个捕获点进行自动区域扫描。空捕获位点或有多个细胞捕获的位点首先被注意到,这些样本随后被排除在进一步的RNA-seq库处理之外。捕获和成像后,立即在C1系统中使用SMARTer PCR cDNA合成试剂盒(Clontech)和Advantage 2 PCR试剂盒(Clontech)进行反转录和cDNA扩增。第二天从C1芯片中提取全长单细胞cDNA文库,稀释至0.1-0.3 ng/μL。用Nextera XT DNA样品制备试剂盒和Nextera XT DNA样品制备指数试剂盒(Illumina)对稀释后的单细胞cDNA文库进行片段化扩增。每个通道24个文库多路复用,67 bp的单端读码在Illumina HiSeq 2500系统上测序。
3.Reads Mapping。使用Bowtie来映射原始reads与内参考基因(例如,人类hg19 Refseq引用),允许最多两次不匹配和最多20次多次命中。映射的预期read counts和tpm可以由RSEM估计。
4.主要群体细胞分类到基因表达异常。假定一个细胞,计算一个Spearman rank相关性列表,将给定的细胞与数据集中的其他细胞进行比较(“one-to-others”)。然后,删除给定的细胞,并为剩余的细胞计算一组成对的Spearman等级相关性(“成对”)。使用单侧Wilcoxon带符号秩检验来评估“一对他”相关是否显著低于“两两”相关集。使用皮尔逊积矩相关性也进行了类似的处理。根据两种检测的p值将细胞分出基因表达异常或主要群体细胞。在这项研究中,我们将基因表达异常值定义为在Spearman和Pearson检验中pvalues均小于0.001的细胞。
5.scRNAseq文库质量评估测量方法:(1总映射读数:所有基因的映射读数之和。极低的测序量可能会影响转录组的特征,这可能是由于低的测序率或在样品制备或测序过程中引入的其他技术问题。(2映射速率:映射读的总次数除以读深度。定位率可能会受到RNA降解、基因组DNA污染或在样品准备或测序过程中引入的其他技术问题的影响。(3读取复杂度:唯一读取(删除重复后的读取次数)占所有读取次数的比率。
6.结合文库质量指标的综合分数
对于每个细胞,计算每个质量指标的分位数分数(QS)。给定一个度量,细胞的QS定义为数据集中其他值相等或更低的细胞数除以细胞总数。例如,如果一个细胞在一组80个细胞中具有第20高的映射率,那么这个特定细胞的映射率QS为0.75。QS越高,说明数据质量越好。
最小分位数分数(MQS):三个质量指标的最小QS。
MQS= min{QSi}g
i∈{mapped reads;mapping rate; reads complexity}
MQS假设这三个质量指标中的每一个都是关键的,这三个指标中的任何一个缺陷都是技术问题的潜在指标。因此,细胞的“最终质量”取决于其最低质量度量分数。
我们的方法假设基因表达异常值包含技术伪影和生物变异细胞,但一般来说,主要群体的细胞更有可能包含高质量的细胞。因此,我们的方法使用主要人群的细胞作为对照来估计数据质量分数的边界和相应的假阳性率(FPR)。然而,鉴于FPR中,由于scRNA-seq没有“好样本”和“坏样本”的“基本事实”,直接估计这两种测量方法是一个挑战。为了进一步比较我们的方法在高异质性和低异质性数据集的敏感性和特异性,我们将我们的方法应用于混合不同细胞类型的数据集,并比较它们之间检测到的技术伪影的重叠。例如,使用鼠scRNA-seq数据集,(48个ES细胞和44个MEF细胞).我们将细胞混合成三种不同的类别:高异质性(48个ES细胞+44个)MEF细胞),中等异质性(“ES细胞(全部)+ 1/5
(MEF)细胞”和(“MEF细胞(全部)+ 1/5 (ES)细胞”),以及低异质性(分别为(48个ES细胞)和(44个MEF细胞))。然而,如果我们将我们的方法分别应用于每个ES(48个细胞)或MEF(44个细胞)数据集,我们可以检测到更多的人工技术造成误差,相比于将我们的方法应用于混合数据集(48个ES细胞+44个MEF细胞)。
我们的方法检测高异质性数据集(48个ES细胞)中的两个技术工件(ESC_46和ESC_32)
+ 44 MEF细胞)。无论是在中等异质性数据集还是在低异质性数据集中,这两种技术产物都可以被稳健地检测到。
我们的结论是,当数据集的异质性程度很高时,我们的方法增加了特异性,但代价是降低灵敏度。在高度异质的细胞群中,检测技术伪影会带来更高的风险,使真正的生物变异细胞脱落。我们的方法对于高度异质性的细胞群增加了特异性,降低了敏感性,这是一个很好的特点,可以最大限度地减少假阳性.
The running SinQC for scRNA-seq QC is not restrictive to RSEM output files (“*.genes.results”). For users who do not use RSEM, they can make a customized RSEM files (“*.genes. results”) to run SinQC. A detailed manual can be found in
SinQC website (http://www.morgridge.net/SinQC.html).