NGS二代测序技术与转化医学研究--2.RNA-seq部分

RNA-seq 转录组测序


        与cfDNA体细胞突变检测相比,基因表达相关的RNA-seq转录组测序在常规的mRNA、非编码RNA (lncRNA、circRNA、microRNA/piRNA等)以及肿瘤融合基因鉴定方面应用较为成熟,业内价格透明且相当低廉。但不少转化医学项目往往选择传统的polyA富集建库,只拿到mRNA数据而丢掉了其它非编码RNA信息(常规的mRNA甚至单细胞RNA-seq已经发布有IRIS,GEPIA等免费在线分析工具);另外拿到的mRNA数据又往往是在数据质控信息不明确的前提下使用古董级生信流程分析得到的;最后肿瘤样本转录组数据差异比较时的肿瘤纯度评估 ,与样本表型、DNA层面以及表观遗传层面的关联等深度挖掘都区别于常规RNA-seq流水线业务。 接下来就对转化医学方向的RNA-seq项目注意事项及质控和结果判读等内容做简单介绍:

 一. 测序分析前--RNA-seq建库测序策略的选择及实验设计


1.1. RNA-seq转录组建库方法(见图1)

      10多年来非编码RNA(lncRNA、circRNA、microRNA/PiRNA)在肿瘤等疾病发生发展过程中调控作用的报道越来越多,采用去核糖体RNA方法建库相对于传统PolyA富集建库,可同时对mRNA以外的其它多种非编码RNA进行分析,性价比较高。

NGS二代测序技术与转化医学研究--2.RNA-seq部分_第1张图片
图1:RNA-seq不同建库方式的下机数据可分析的RNA类型

1.2. 实验设计中的生物学重复问题

       有/无生物学重复的实验设计在各种类型的RNA差异比较分析步骤中选取的方法是完全不同的,建议各差异比较分组均设置3个以上生物学重复以排除技术因素对差异比较结果的干扰;

1.3 . RNA提取质控

      RIN(RNA完整性)值应在6.5以上,轻度降解的RNA属于风险建库测序,重度降解RNA的建库测序及任何分析均无意义;

1.4. 参考转录本/基因组版本的选取

      根据自己目的,选择refseq/Ensembl上对应的转录本版本和参考基因组;

1.5. 转录组下机数据质控应包含的内容

      以下质控指标适用于Rnase酶消化建库以外其它类型RNA建库数据:

     a. 比对nr数据库检查外源污染;b. GC比例及均一性分布情况;c. coding/intron等区域reads比例;d. 插入片段长度的均值/中位数;e. mapping(Uniqe/Multi/Total)到参考基因组上的reads比例(Multi mapped>10%会干扰后续的表达后续定量及差异比较等分析); f. BLAST过滤raw data中的rRNA后的clean data数据量及Q30等指标; 

      对于小RNA下机数据,需要额外关注其长度分布峰值等信息;

     备注:培养的细胞样本容易存在外源污染需要排污检查;各种类型的RNA建库都存在rRNA是否去除干净的问题,需要比对rRNA数据库进一步排除raw data中的rRNA。总之,RNA-seq数据质控部分需要关注的内容更多一些。

二.  测序后--不同类型 RNA的测序分析


2.1. 非编码RNA的筛选

       lncRNA:根据长度、外显子数目、表达量、编码潜能预测等信息筛选;circRNA:根据反式剪接位点筛选;小RNA:根据长度、数据库比对、首位碱基偏好性等特征筛选;

2.2. 比对、拼接、定量、差异与富集的标准分析流程

2.2.1 比对、拼接、定量、差异:

       目前各主流公司在RNA-seq 质控后的比对、拼接、定量、差异步骤的分析方法差异较大,不同分析流程对拼接出来的转录本数目、基因的表达定量及差异分析结果也都有影响,2017年有相关文章对这部分内容进行了系统全面的比较,部分内容见图2、图3和图4。综合来看 ,HISAT2/STAR(比对)+stringtie(拼接定量)+DEseq2(基于负二项分布的差异表达分析)的方法得到的结果与测序质量控制联盟(SEQC)的qPCR检测结果一致性较高。相比之下,传统的tophat2-cufflinks-cuffdiff 分析流程确实有些过时了。

NGS二代测序技术与转化医学研究--2.RNA-seq部分_第2张图片
图2:RNA-seq不同分析流程组装出来的转录本数目比较
NGS二代测序技术与转化医学研究--2.RNA-seq部分_第3张图片
图3:RNA-seq不同分析流程组装出来的转录本表达情况比较
NGS二代测序技术与转化医学研究--2.RNA-seq部分_第4张图片
图4: RNA-seq不同分析流程组装出来的差异表达基因数目比较

2.2.2 RNA层面的肿瘤纯度评估

      差异表达分析前有无基因表达层面的肿瘤纯度评估,是衡量外包公司在肿瘤方面专业水平的一个不错的标准。但鉴于不同方法评估出的肿瘤纯度差异较大,差异及富集分析对计算资源要求不高,肿瘤样本RNA-seq数据的差异和富集分析可采用引入和不引入纯度评估两套方法并行进行。

2.2.3 差异表达基因筛选及生物学功能和代谢通路的富集分析 

      对于关注的目的基因不在当前阈值下的情况:  a. 适当放宽阈值;b.换用其它分析方法;c.  要回用于测序的剩余样本直接做RT-PCR验证;

      当前大部分公司都在用DAVID,GOseq,KEGG等10年前的经典软件对RNA-seq差异表达基因进行富集,虽然这些软件虽然富集分析原理基本上都是超几何分布,但后台的数据库大多已经多年没有更新,对于转化医学相关的研究,最好使用近几年新发布,后台数据库更新及时的基因生物学通路富集数据库,如g:profiler,clusterProfiler等,对差异表达基因(主要关注BP--生物学通路和KEGG,其它MF--分子功能和CC--细胞组分两部分的结果参考即可)进行富集分析;

2.3. 差异表达基因过多的情况:

     对于有生物学重复的实验设计,如果得到的差异表达基因占到本次表达基因总数的10%左右甚至更高,这样的结果可能存在异常,需要排查原因后后再查往下进行分析: a.差异比较组合弄错(差异比较组合往往是人工填写,出错的几率较大);b.  检查数据质控情况;c. 实际差异表达基因可能确实有这么多;

2.4. 各样本表达情况的PCA聚类:

      当差异比较分组内样本基因表达情况的相关性应高于组外样本时,后续的差异比较分析才有意义,否则应考虑本身实验设计的合理性;

2.5. mRNA/lncRNA/microRNA/circRNA的全转录组关联分析

      去核糖体建库+小RNA建库两种方法结合获得的RNA-seq数据,可同时分析lncRNA、mRNA、circRNA和microRNA/piRNA,并结合其表达量的上下调情况进行全转录组关联分析;

2.6 基因表达与基因突变相关联

      一维DNA层面上的突变、二维RNA层面上的表达以及三维蛋白层面上的结构信息,这些信息在时间层面上规律性的互作和影响就是基本的生命现象。与早些年eQTL(表达数量性状位点) 研究相比,肿瘤RNA+DNA层面的关联分析可研究的内容更多,当然干扰因素也就更多,也就更需要分析前保证DNA和RNA数据集有相当高的可信度;

2.7. RNA水平的突变检测及肿瘤融合基因分析

       对于肿瘤组织样本,一方面无Normal配对样本,另一方面由于RNA编辑和可变剪切的影响,RNA水平上检测到的突变位点可信度不并高;即便是常规germline突变检测,最好直接用WES/WGS测序数据来分析;

       肿瘤组织样本的RNA-seq数据还可以充分利用数据---用STAR等软件对RNA水平上的基因融合进行检测;

2.8. 样本clean data数据量比合同上高很多

     组内个别样本异常高的数据量会对差异表达分析带来干扰,跟Panel一样,数据太多并不是福利;

2.9. 外泌体lncRNA/小RNA测序

       尚处于基础科研阶段;

2.10. 单细胞RNA-seq

      不同的测序平台(C1(分析前需去polyA)、10Xgenome等)的下机数据预处理及后续分析方法各不相同,此外还有2018年浙大郭国骥老师团队开发的Microwell-seq单细胞测序技术等;

2.11. RNA-seq相关公司产品及报价

       电话询问业内主流测序公司比较即可

三. 肿瘤体细胞突变和RNA-seq项目总结


     不管是DNA层面的突变检测还是RNA层面的基因表达分析,个人认为抓住以下三点就可以在很大程度上避免走弯路:

                1. 先花些时间理清自己的研究目的以及候选公司产品的具体内容;

                2. 组织/cfDNA样本体细胞突变检测以及RNA-seq产品在转产前有没有验证报告以及验证报告中关键内容是否体现;

                3. 最后甲方最好对体细胞突变检测/RNA-seq数据的质控和变异分析两部分有实质性的理解;

      希望这两篇文章能对转化医学研究中与NGS技术相关的----产品选择、数据质控、异常结果排查等工作提供帮助。其中涉及到的测序技术原理等内容可参考前言部分结尾提供的课件链接。 随着三代全长转录组、单细胞和nanopore测序技术逐渐从科研走向应用,测序技术在药物研发/转化医学方面的应用也将越来越广。欢迎大家留言交流指正!

写于2019年3月13日


你可能感兴趣的:(NGS二代测序技术与转化医学研究--2.RNA-seq部分)