TAC-seq: targeted DNA and RNA sequencing for precise biomarker molecule counting
题目:TAC-seq:用于精准生物标志物分子计数的靶向 DNA 和 RNA 测序技术
作者及单位:
Hindrek Teder& Kaarel Krjutškov
Kaarel Krjutškov
- Competence Centre on Health Technologies, Tartu, Estonia
- Department of Biosciences and Nutrition, Karolinska Institutet, Huddinge, Sweden
- Research Program of Molecular Neurology, Research Programs Unit, University of Helsinki, and Folkhälsan Institute of Genetics, Helsinki, Finland
发表杂志及时间:
npj Genomic Medicinevolume 3, Article number: 34 (2018) Published: 18 December 2018
摘要
Targeted next-generation sequencing (NGS) methods have become essential in medical research and diagnostics. In addition to NGS sensitivity and high-throughput capacity, precise biomolecule counting based on unique molecular identifier (UMI) has potential to increase biomolecule detection accuracy. Although UMIs are widely used in basic research its introduction to clinical assays is still in progress. Here, we present a robust and cost-effective TAC-seq (Targeted Allele Counting by sequencing) method that uses UMIs to estimate the original molecule counts of mRNAs, microRNAs, and cell-free DNA. We applied TAC-seq in three different clinical applications and compared the results with standard NGS. RNA samples extracted from human endometrial biopsies were analyzed using previously described 57 mRNA-based receptivity biomarkers and 49 selected microRNAs at different expression levels. Cell-free DNA aneuploidy testing was based on cell line (47,XX, +21) genomic DNA. TAC-seq mRNA profiling showed identical clustering results to transcriptome RNA sequencing, and microRNA detection demonstrated significant reduction in amplification bias, allowing to determine minor expression changes between different samples that remained undetermined by standard NGS. The mimicking experiment for cell-free DNA fetal aneuploidy analysis showed that TAC-seq can be applied to count highly fragmented DNA, detecting significant (p = 7.6 × 10−4) excess of chromosome 21 molecules at 10% fetal fraction level. Based on three proof-of-principle applications we demonstrate that TAC-seq is an accurate and highly potential biomarker profiling method for advanced medical research and diagnostics.
靶向二代测序(NGS)方法已成为医学研究和诊断的基本方法。 除了 NGS 的敏感性和高通量特征之外, 基于唯一分子标识符(UMI) 的精准生物分子计数具有提高生物分子检测精度的潜力。 虽然 UMI 在基础研究中得到了广泛的应用, 但是其引入临床试验的工作仍在进 行中。 在此, 我们提出一种稳健且经济有效的 TAC-seq(通过测序进 行目标等位基因计数)方法, 该方法使用 UMI 来估计 mRNA、 miRNA 和 cell-free DNA 的原始分子计数。 我们在三种不同的临床应用中使 用 TAC-seq, 并将结果与标准的 NGS 进行比较。 使用先前描述的 57 种基于 mRNA 的感受态生物标记物和 49 种不同表达水平的 miRNA, 对从人子宫内膜中提取的 RNA 样品进行分析。 基于细胞系(47, XX, +21) 基因组 DNA 对 cell-free DNA 进行非整倍体检测。 TAC-seq 的 mRNA 谱显示与转录组 RNA 测序相同的聚类结果, 并且其 miRNA 检测显示扩增偏倚显著降低, 从而能够确定不同样品之间的微小表达 变化, 而标准的 NGS 技术不能明确。 cell-free DNA 的胎儿非整倍体 分析的模拟实验表明, TAC-seq 可用于高片段 DNA 的计数, 在 10% 胎儿分数水平检测到 21 号染色体分子显著过表达(p=7.6×10_4) 。 基于三个原理证明的使用, 我们证明 TAC-seq 是一种能用于医学研究 和诊断的精准且高潜能生物标记物谱分析方法。
Fig. 1. Principle and technical parameters of TAC-seq. a Schematic diagram of the assay to detect specific mRNA or cell-free DNA. Target-specific DNA oligonucleotide detector probes hybridize under stringent conditions to the studied cDNA or cfDNA. Both detector oligonucleotides consist of a specific 27-bp region (green), 4-bp unique molecular identifier (UMI) motif (NNNN), and universal sequences (purple and orange). The right detector oligonucleotide is 5′ phosphorylated. After rigorous hybridization, the pair of detector probes is ligated using a thermostable ligase under stringent conditions. Next, the ligated detectors complexed with the target region are captured with magnetic beads and PCR amplified to introduce sample-specific barcodes and other common motifs that are required for single-read NGS. b Spearman correlation analysis of the input and detected ERCC synthetic spike-in mRNA molecules at UMI threshold 4 (UMI = 4). UMI threshold is defined as the number of detected unique UMI sequences. For example, UMI = 4 indicates that a certain UMI motif is detected at least four times. UMIs are valuable only if the number of UMI combinations (8-bp UMI provides 65,536 variants, for example) is substantially larger than the sum of the target molecules in the studied sample. c Bar plot of Spearman’s correlation analysis of the ERCC input and detected molecules at different UMI thresholds. d Reproducibility of seven technical ERCC replicates (seven different icons on plot) of 22 spike-in molecules at UMI = 4
TAC-seq的原理和技术参数 。 a 用于检测特异性 mRNA 或 cell-freeDNA 的检测方法的示意图。 目的特异性 DNA 寡核苷酸检测探针在严格的条件下与所研究的 cDNA或 cfDNA杂交。两种检测器寡核苷酸都由特定的 27-bp区域(绿 色) 、 4-bp 唯一分子标识符(UMI) 基序(NNNN) 和通用序列(紫 色和橙色) 组成。 右侧检测的寡核苷酸是 5′ 磷酸化的。 经过严密杂 交后, 在严格条件下使用耐高温连接酶连接一对检测器探针。接下来, 用磁珠捕获与目标区域复合的结合检测器, 并扩增 PCR 以引入单读 数 NGS 所需的特定于样品的条形码和其他常见图案。 b, 在唯一分子标识符阈值为 4(UMI=4)的情况下, 对输入的和 检测到的 External RNA Controls Consortium (ERCC)中 mRNA 分子进 行 Spearman 相关分析。UMI 的阈值定义为检测到的唯一 UMI 序列的 数量。例如, UMI=4 指示至少四次检测到某个 UMI。 UMI 只有当 UMI 组合的数量(例如, 8-bp UMI 提供 65536 个变体) 显著大于研究样 本中的目标分子总和时才有价值。 c Spearman 对 ERCC 输入和检测分子在不同 UMI 阈值下的相关 性分析的条形图。 d 在 UMI=4 时, 22 个尖峰分子的 7 个技术 ERCC 复制品(图中 的 7 个不同的图标) 的重现性。
Fig 2. Comparison of the overall predictions for mRNA TAC-seq assay. a Principal component analysis of the full transcriptome RNA-seq, high-coverage TAC-seq and low-coverage TAC-seq of ten endometrial samples. The first principal component (PC1) describes most of the sample variability and correlates most with the receptivity status. Blue dots represent pre-receptive and red dots receptive human endometrial samples. One separate pre-receptive sample (indicated with an asterisk) represents the same sample that clusters differently in the heatmap analysis (below) and is, therefore, a potential biological outlier. b Heatmaps of the full transcriptome RNA-seq, high-coverage-, and low-coverage TAC-seq show the sensitivity to distinguish different endometrial samples according to their receptivity. One pre-receptive sample (indicated with an asterisk) shares the expression profile and clusters together with receptive samples in all three comparisons. Pre-receptive samples are labeled blue and receptive red. Detailed heatmaps are presented in Supplementary Fig. 3 together with housekeeping genes that demonstrate a lack of fluctuation of the pre-receptive and receptive biopsies. High-coverage TAC-seq data are presented at UMI = 2 and low-coverage data at UMI = 1 on PCA and heatmaps. Higher UMI thresholds in both high- and low-coverage approaches left low-expressed biomarker genes, like APOD, EDN3 etc without reads, according to Supplementary Fig. 4. The data are plotted as row-wise scaled ==log-transformed counts per million (CPM)== values. The samples are hierarchically clustered column-wise using Pearson correlation. The genes are ordered row-wise according to the RNA-seq clustering results using Euclidean distance. Fewer genes are found expressed with a low-coverage compared to RNA-seq and high-coverage TAC-seq
图2. 比较TAC-seq实验预测的总体mRNA的。对10个子宫内膜样本的全转录组RNA-seq,高覆盖率TAC-seq和低覆盖率TAC-seq的主成分分析。第一主成分(PC1)描述了大部分样本变异性,并且与接受性状态最相关。蓝点代表接受性和红色点接受性人子宫内膜样品。一个单独的预接受样本(用星号表示)表示在热图分析(下图)中聚类不同的相同样本,因此是潜在的生物异常值。 b完整转录组RNA-seq,高覆盖率和低覆盖率TAC-seq的热图显示了根据其接受性区分不同子宫内膜样品的敏感性。一个预接受样本(用星号表示)与所有三个比较中的接受样本共享表达谱和簇。预接受样品标记为蓝色且接受红色。详细的热图在补充图3中与管家基因一起呈现,其表明预接受和接受活组织检查的波动不足。高覆盖率TAC-seq数据以UMI = 2呈现,低覆盖率数据以UMI = 1呈现在PCA和热图上。根据补充图4,高覆盖率和低覆盖率方法中都设置了较高的UMI阈值,从而筛掉了低表达的生物标记基因,像APOD,EDN3等没有读数.数据绘制成每百万行标度对数转化计数( CPM)值。使用Pearson相关性对样本进行分层聚类。根据使用欧几里德距离的RNA-seq聚类结果对每行的基因进行排序。与RNA-seq和高覆盖率TAC-seq相比,发现较少的基因以低覆盖率表达
Fig 3. TAC-seq miRNA assay performance. Correlation plots of four miRNA sample ==technical replicates==(技术重复) using TAC-seq assay at UMI = 4. miRNA sample 1 is on the left hand and has two replicates, one plotted on the x-axis and the other on the y-axis. The same with miRNA sample 2 on the right hand
图3. TAC-seq miRNA试验的性能。在UMI=4时,采用TAC-seq方法测定的四种miRNA样本技术重复之间的相关图。miRNA样本1在左边,有两个重复,一个在x轴上,另一个在y轴上。对于右边的miRNA样本2来说也是一样的
fig 4. ==Trisomy==(21三体) detection under in vitro conditions. Boxplots over applied UMI thresholds of normalized molecule counts (y-axis) of trisomy TAC-seq experiments indicates a positive correlation between the trisomy factor (x-axis, trisomic cell proportion) and chr21 counts. Experiment 1, upper four plots, involved 114 loci along chr2 and chr21. One biological replica is depicted. Experiment 2, lower four plots at various UMI thresholds, involved extended TAC-seq probe set (in total 224 probes) along chr2, chr3, and chr21. The red asterisks indicate significant reference chromosome(s) and chr21 read-count-based differences between studied samples (p < 0.05, one-tailed Welch’s t-test)
体外条件下的三染色体细胞检测。三染色体细胞 taco -seq 实验归一化分子计数(y 轴)的 UMI 阈值以上的箱线图表明,三染色体因子(x 轴, 三染色体的细胞比例)与 chr21 计数呈正相关。 实验一, 如上面四个图, 包括沿着 chr2 和 chr21 的 114 个位点。描绘了一个生物复制品。 实验 2,降低 4 个不同 UMI 阈值的小区, 涉及到沿 chr2、 chr3 和 chr21 延伸的 taco -seq 探 针组(共 224 个探针)。 红色星号表示研究样本间的参考染色体(s)和基于 chr21 读计数的差异 显著性(p<0.05, 单尾 t 检验)。
讨论
将NGS的高灵敏度和灵活性与有针对性的高效、精确的定量方法相结合,可以对特定的核酸生物标志物进行稳健的检测,从而指示(病理)生理状况。TAC-seq是一种先进的基于连接的NGS方法,它不同于现 有的连接-PCR方法,如mlpa 6、MLPA-seq 5、tempo-seq 4、RASL-seq 7和dansr8。TAC-seq的主要 优点是能够检测mRNA和miRNA等转录生物标记分子的数量,以及cfDNA的基因组位点。精确的分子计 数是通过集成umi或“分子条形码”模板12来实现的,这减少了体外复制步骤带来的定量和随机偏差。使 用UMIS去除PCR重复,减少了主要NGS特异性技术偏差之一,提高了NGS的准确性。
我们对22个分析ERCC尖峰输入和分子(Spearmanr = 0.9958在图上。1d)检测并观察到非常高的灵敏度 相关高覆盖度,保证每个UMI覆盖率为102×。根据覆盖范围,我们相信,几乎没有错过联合管理信息系 统,因此,这一结果是可靠的。然而,低表达的目标和高表达的目标之间的系统性差异被低估了,高拷 贝分子的数量被低估了(见补充表1中的前四位ERCC尖峰)。这是由umi序列的长度来解释的,它导致 了“技术饱和”。在本研究中使用的8个核苷酸UMIS有6.5万个可能的序列,适用于cfDNA三体检测,因为 10 ml血中cfDNA的拷贝数<5000.23,24。同样适用于较低浓度的tc-seq表达应用。或者,可以将这两 个检测器探针中的umi序列从当前的8个核苷酸扩展到12个核苷酸,从而确保1670万个可能的组合。同 时,我们也意识到,在探测器中引入更长、更随机的umi串,可能会增加探测器自配对和非特异性连接 的概率。然而,诸如“饱和度”和复制等与之相关的问题导致了小说“幻影”umis 25,在分析设计和数据分 析时应该加以考虑。
TAC-seq的设计考虑到了基因检测实验室的主要先决条件-敏感性、健壮性和成本效益。文中还讨论了 MEU的灵敏度和分子计数问题。单管协议保证了系统的鲁棒性,最大限度地减少了等位基因丢失的风 险.此外,该方法是无稀释的,这意味着被分析的生物标记分子与连接的探测器探针一起被捕获并通过测 序鉴定。后者在液体活检样本中至关重要,因为每个位点只有数千份拷贝。如果采用与特定探针连接的 方法,则探针杂交兼容的目标cfdna拷贝数减少25%,原因是cfdna长度较短(180 bp),因为如果cfdna片 段位于距cfdna片段近25 的位置,则没有检测到该位点。 TAC-seq通过寡核苷酸启动的cDNA合成(Poly-a选择)检测mRNA生物标志物,反映活性转录组的分析。 它不同于最近描述的Splintr连接酶26用于RNA/DNA杂交的Tempo-Sq4,它被用于通过特定的检测器寡 核苷酸检测任何,甚至是片段的RNA靶点。此外,Splintr连接酶的最佳工作温度为37 ℃,这可能限制了 已形成的RNA/DNA探针复合物预先连接的特异性。相比之下,tac-seq使用热稳定的水热菌dna连接酶 27,使特异性杂交和连接在温度超过45 °C。基于TaqDNA连接酶的这一特性,我们首次在60 °c进行了 特异性探针-靶杂交,并在相同温度下引入连接酶连接到临近退火链中。 由于测序是NGS成本的主要来源,因此在常规NGS临床应用中应用支持低覆盖率测序的库准备是至关重 要的。通过现成试剂和基因组实验室常用仪器的使用,如标准热循环仪和台式NGS测序器,确保了 TAC-seq的成本效益。TAC-seq的运行成本仅为一般NGS应用的一小部分,如NIPT的全基因组测序或 mRNA和miRNA分析的RNA-seq。TAC-seq的建立成本取决于由于需要特定的检测器寡核苷酸而研究的 位点数目(补充图)。10)补充表2列出了消耗品及其大致价格,并在方法中加以解释。根据自制文库的制 备和测序,根据测序深度的不同,miRNA谱和cfDNA分析的总试剂成本小于30欧元/份,而mRNA生物标 志物分析的成本低于26~40欧元/份。因此,TAC-seq有可能成为临床研究后常规NIPT或检测转录组生物 标记物水平的一种具有成本效益的替代品。 TAC-seq探针的特异性由mRNA和gDNA上的54-BP长区决定.我们开发了自动化的mRNA探针设计软件 (http://nipt.ut.ee/design/),在使用上没有限制,并在补充方法中进行了描述),使探针设计过程自动 化,并提供高特异性的寡核苷酸序列和可供合成的公共单元。miRNA分子的探针设计更加简单,不需要 特殊的软件(见补充图)。6)另一个使NGS作为检测方法选择的简化方法是用户友好的数据分析。小型 NGS数据分析不需要强大的计算资源.为此,我们为小型tac-seq数据分析提供了用户友好的个人计算机 软件,并提供了用于密集分析的开放源代码(链接在方法中)。简单的分析流水线克服了NGS“大数据”的局限性。大多数需要资源的原始数据处理都是由Illumina云计算环境完成的。接下来的tc-seq分析是基于 文本文件操作的,消除了排序读取映射的需要,使得在个人计算机中执行NGS分析成为可能(参见方法 的详细信息)。
应用umi阈值取决于应用类型和排序深度。cfDNA分析的基础是期望所有研究的基因座都以相对相似的 拷贝数表示。如果对PCR周期进行优化以避免过度扩增,我们建议使用umi = 1或umi = 2阈值(图1)。4) 转录组生物标志物分析面临着原始分子计数的多样性(补充图)。4)转录组的差异根据低表达的分子决定 最优的umi阈值。过于严格的阈值过滤掉低表达的生物标记物。 总之,我们发展了一种高度灵敏和并行的方法来精确地计数研究样品中核酸生物标记分子的数 量。我们的原理证明表明,tac-seq方法在mRNA和miRNA的应用中具有与金标准RNA-seq法相似 的灵敏度,能够成功地检测出类cfDNA材料中cfDNA分子的过量(指示染色体三体)。TAC-seq是一 种自动化兼容的方法,旨在克服基因检测实验室中基于连接和NGS的限制。虽然所有的应用都需 要经过仔细的临床验证才能被使用,但所描述的方法是进一步专业化和优化的基础,以提供先进 的DNA和RNA生物标志物分析工具,从而提高相应研究和保健应用的范围和质量。
翻译小组:
王俊豪、陈凯星、邓峻玮、黄敬潼、陈志荣、黄子亮、郑凌伶