【scRW】[3]Single-cell RNA-seq data - raw data to count matrix

根据所用文库的制备方法,RNA序列((also referred to as reads or tags)将从转录本(10X Genomics, CEL-seq2, Drop-seq, inDrops)或全长转录本(Smart-seq)的3'端(或5'端)中衍生。

Image credit: Papalexi E and Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity, Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

方法的选择涉及感兴趣的生物学问题。 下面列出了这些方法的优点:

3’ (or 5’)-end sequencing:**

  • 通过使用独特的分子标识符进行更准确的定量,从而将生物学复制品与扩增复制品(PCR)复制品区分开来
  • 测序的细胞数量更多,从而可以更好地鉴定细胞类型群
  • 降低每细胞成本
  • 获得超过10,000个细胞的最佳结果

Full length sequencing:**

  • 检测表达的同工型水平差异
  • 鉴定表达中的等位基因
  • 测序深,细胞数量少
  • 适合细胞数量少的样品

3'末端测序需要进行与全长测序相同的许多分析步骤,但3'方案越来越流行,并且在分析中还包含一些其他步骤。 因此,我们的材料将详细介绍这3'方案的数据分析,重点是基于液滴的方法(inDrops,Drop-seq,10X Genomics)。

1. 3’-end reads (includes all droplet-based methods)

对于分析scRNA-seq数据,了解每个读数中存在哪些信息以及我们如何在分析过程中使用该信息将很有帮助。

对于3'端测序方法,源自相同转录本的不同分子的reads仅会源自转录本的3'末端,因此具有相同序列的可能性很高。
但是,文库制备过程中的PCR步骤也可能会产生重复读物。 为了确定读数是生物学的还是技术的重复,这些方法使用唯一的分子标识符unique molecular identifiers或UMI。

  • UMI不同代表reads来自不同的molecule,mapping到相同转录本的不同UMI的读段代表来自不同的分子,并且是生物学重复项-每个读段均应计数;
  • 具有相同的UMI的读段来自同一分子,是技术重复项-the UMIs should be collapsed to be counted as a single read;
  • 在下图中,应折叠ACTB的读数并将其计为单个读数,而应将ARL1的读数分别计数。


    Image credit: modified from Macosko EZ et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets, Cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)

因此,我们知道需要跟踪UMI,但是还需要什么其他信息来正确量化样本中每个细胞中每个基因的表达? 无论采用液滴法,在细胞水平进行正确定量都需要以下条件:

  • Sample index: determines which sample the read originated from
    => Added during library preparation - needs to be documented
  • Cellular barcode: determines which cell the read originated from
    => Each library preparation method has a stock of cellular barcodes used during the library preparation
  • Unique molecular identifier (UMI): determines which transcript molecule the read originated from
    =>The UMI will be used to collapse PCR duplicates
  • Sequencing read1: the Read1 sequence
  • Sequencing read2: the Read2 sequence

例如,当使用inDrops v3库准备方法时,以下内容表示如何通过四次读取来获取所有信息:
[图片上传失败...(image-42432b-1590059217326)], Director of the Single Cell Sequencing Core at HMS*
](https://upload-images.jianshu.io/upload_images/11904209-be5239321de7c14f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

image.png

对于不同的基于液滴的scRNA-seq方法,scRNA-seq的分析工作流程相似,但是UMI,cell ID和样品索引sample indices不同, 例如,以下是10X genomics读取的示意图,其中indices, UMIs and barcodes的放置位置不同:

[图片上传失败...(image-8cb477-1590059217326)], Director of the Single Cell Sequencing Core at HMS
](https://upload-images.jianshu.io/upload_images/11904209-5b3656ed47c6747e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

2. Single-cell RNA-seq workflow

scRNA-seq方法将确定如何从测序读数中解析条形码和UMI。 因此,尽管一些特定步骤会略有不同,但无论采用何种方法,总体工作流程通常都将遵循相同的步骤。 常规工作流程如下所示:

The steps of the workflow are:

  • 计数矩阵的生成Generation of the count matrix(method-specific steps):
    格式化读取,对样本进行多路分解demultiplexing samples,mapping and quantification;
  • 原始计数的质量控制Quality control of the raw counts:过滤质量较差的细胞
  • 过滤计数的聚类:基于转录活性相似性对细胞进行聚类(细胞类型= 不同的簇)
  • 标记鉴定:为每个簇鉴定基因标记
  • 下游步骤-可选


    image.png

无论进行何种分析,基于每种条件的单个样本得出的种群结论都不可靠。 仍然需要生物替代品!BIOLOGICAL REPLICATES ARE STILL NEEDED!也就是说,如果您要得出与总体相对应的结论,不能仅仅是单个样本。

3.Generation of count matrix

我们将从讨论此工作流程的第一部分开始,该部分将根据原始测序数据生成计数矩阵。 我们将重点介绍基于液滴的方法(如inDrops,10X Genomics和Drop-seq)使用的3'末端测序。

image.png

测序后,测序工具将以BCL或FASTQ格式输出原始测序数据,或生成计数矩阵。 如果读取的是BCL格式,则我们将需要转换为FASTQ格式。 有一个有用的命令行工具bcl2fastq,可以轻松执行此转换。

对于许多scRNA-seq方法,从原始测序数据中生成计数矩阵都将经历相似的步骤。

image.png

umis 和 zUMIs是用于评估scRNA-seq数据表达的命令行工具,已对转录本的3'端进行了测序。 两种工具都合并了UMI的折叠,以校正放大偏差。 此过程中的步骤包括:

image.png

如果使用10X Genomics库制备方法,则上述所有步骤可以按照这个pipeline来进行:Cell Ranger pipeline

4.data处理步骤

4.1 Formatting reads and filtering noisy cellular barcodes

The FASTQ files can then be used to parse out 解析 the cell barcodes, UMIs, and sample barcodes. For droplet-based methods, many of the cellular barcodes will match a low number of reads (< 1000 reads) due to:
以下这些原因可能造成barcode匹配的RNA的显著减少:

  • barcode包裹了floating RNA from dying cells;
  • simple cell (RBCs, etc) expressing few genes;
  • cells that failed for some reasons

在读取比对之前,需要从序列数据中过滤掉这些多余的条形码。 要进行此过滤,请提取并保存每个细胞的“cellular barcode”和“molecular barcode”。 例如,如果使用“umis”工具,则信息将以以下格式添加到每次读取的标题行中:

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+

文库制备方法中使用的已知细胞条形码应该是已知的,未知的条形码将被丢弃。

4.2 Demultiplexing sample reads

The next step of the process is to demultiplex the samples, if sequencing more than a single sample. This is the one step of this process not handled by the ‘umis’ tools, but is accomplished by ‘zUMIs’. We would need to parse the reads to determine the sample barcode associated with each cell.

4.3 Mapping/pseudo-mapping to cDNAs

To determine which gene the read originated from, the reads are aligned using traditional (STAR) or light-weight methods (Kallisto/RapMap).

4.4 Collapsing UMIs and quantification of reads

The duplicate UMIs are collapsed, and only the unique UMIs are quantified using a tool like Kallisto or featureCounts. The resulting output is a cell by gene matrix of counts:

image.png

矩阵中的每个值代表源自相应基因的细胞中的读取次数。 使用计数矩阵,我们可以探索和过滤数据,仅保留更高质量的细胞数据。

你可能感兴趣的:(【scRW】[3]Single-cell RNA-seq data - raw data to count matrix)