NGS-高通量测序原理学习笔记

学习教程
https://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247491455&idx=1&sn=d4fb468c36c56f98eddd6bfa021651f0&chksm=ec0ddaf5db7a53e352053fa913b1eb031c2c4412093a2db78f9f4ae290078c0d397a0c3ca3d4&scene=21#wechat_redirect

NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集)等内容。

NGS基础系列文章包括高通量测序原理,测序数据获取和质量评估,常见文件格式解释和转换4部分。

illumina/PacBio/ONT测序原理

1.不同平台优劣对比

a、测序技术:short-read cDNA
测序平台:illumina、iontorrent
优势:高通量、每次运行产生的reads数是long-read平台的100-1000倍之多;可用于降解了的RNA的分析;
劣势:样品制备过程如反转录、PCR和片段选择都会引入偏好性(由于密码子的简并性,每个氨基酸至少对应1种密码子,最多有6种对应的密码子。不同物种、不同生物体的基因密码子使用存在着很大的差异。各种生物体似乎更偏爱使用某些同义三联密码子(即编码相同氨基酸的密码子)。)
重要应用;几乎所有的RNA-seq应用都是基于short cDNA测序:DGE(differential gene expression ),WTA(whole-transcriptome analysis),小RNA,单细胞空间转录组,新生转录本,翻译组,RNA结构组和RNA-蛋白质相互作用分析等等。
2.改善降解了的RNA的分析
但是比较研究显示两种方法表现最佳,即RNase H与RNA exome。如前所述,RNase H法使用核酸酶消化RNA:DNA复合物中的rRNA,但保留降解的mRNA用于后续测序。

设计更好的RNA-seq实验

好的DGE RNA-seq 实验设计对获取高质量和有生物意义的数据至关重要,特别需要考虑的是生物重复的数目、测序深度、采用单端还是双端测序

生物重复与统计检出力 (replication and experimental power)

实验中必须包含足够的生物学重复以捕获组内样品自身存在的生物差异。定量分析的可信度更多地取决于生物重复,而非测序深度或reads长度。尽管RNA-seq的技术稳定性高于微阵列平台,但生物系统固有的随机变异要求进行常规RNA-seq实验必须要重复一次。额外的重复能够帮助发现异常样品;并且在后续分析前,如有必要时移除或降低异常样品的权重。确定最佳重复数需要仔细考虑几个因素,包括预期的最小变化幅度 (effect size)、组内变异、可接受的假阳性和假阴性率以及最大能用于实验的样本量,并且可以通过使用RNA-seq实验设计工具或统计功效工具进行辅助设计。(http://www.biostathandbook.com/power.html )
样品生物学重复数据选择 1必要性 2需要多少重复?
确定实验的正确重复数并不总是那么容易。一项48个重复的酵母研究表明,当分析中仅包含3个重复时,许多用于DGE分析的工具仅检测到20-40%的差异表达基因。该研究表明,至少应使用六个生物重复,这大大超过了RNA-seq文献中通常报道的三个或四个重复。最近的一项研究表明,四个重复可能就足够了,但它强调了测量生物学差异的必要性-例如,在确定出重复数之前先进行预实验。对于高度多样化的样本(例如来自癌症患者肿瘤的临床组织),可能需要进行更多重复才能检测出高可信度的变化。

确定最佳测序深度

RNA-seq文库构建好后,就需要确定测序深度了。测序深度是指每个样品获得的测序序列数量。对于真核基因组中的bulk RNA DGE实验,通常需要每个样品大约10–30百万条测序reads。但是,多个物种的比较分析表明,对于最高表达的50%的基因来说,每个样本只需要测序1百万条 reads就可以获得与测序3千万条reads相似的表达定量结果。如果只关注最高表达的基因相对大的表达变化,并且有合适的生物学重复,那么较少的测序就足以产生驱动后续实验的假说。测序完成后,估计的测序深度可以通过检查样品之间reads的分布和绘制饱和度曲线验证,并且饱和曲线还可以评估加测是否能提高检测敏感性。随着测序仪测序通量的增加,将一个实验的所有样品混合到一起同时上机测序(甚至在同一个lane里面测序)是控制技术偏差的标准做法。总产出reads数是样本数与每个样本期望获得的reads数的乘积;如果有必要,混合的文库测序足够多的次数以达到所需的总reads数。混样测序需要仔细测定每个RNA-seq文库的浓度,并假定混合的不同样品中cDNA的总量相差不大(低方差),因此读取的总reads数才能均匀地分到各个样品中。在进行昂贵的多通道混合测序之前,运行单个lane确认样品之间cDNA总量相差不大是值得的预操作。

你可能感兴趣的:(NGS-高通量测序原理学习笔记)