1.序列比对
2.DNA-seq&RNA-seq
3.几款比对工具的比较
4.基因组变异
5.变异检测工具的选择
6.参考
序列比对
目前的生物信息分析流程离不开序列比对,基于比对结果才能进行后续相关分析(组装、变异检测等)。可以说,序列比对已经成为生物信息分析的基石。根据不同应用,序列比对大致可以分为三类:
1)全局比对,常用软件有 Clustal Omega、MUSCLE、HMMER 等,主要用于多序列比对、种系分析、保守区段分析等;
2)局部比对,常用软件有 Blast+、Blat、Blastz、GeneWise 等,主要用于同源序列分析、数据库比对、基因功能注释等;
3)短序列比对,常用软件有 BWA、Bowtie2、SOAP2、NovoAlign、TopHat、STAR、HISAT2 等,主要用于将高通量测序产出的短片段(Reads)快速且准确地比对到参考序列上。
DNA-seq & RNA-seq
大家在对比对工具进行比较时,喜欢将其分为DNA比对工具(DNA-seq)和RNA比对工具(RNA-seq)。它们的区别仅在于是否会考虑跨外显子的比对,即:是否会将没有比对上的reads劈开,对劈开后的两部分再次比对)。
随着现在各种seq的出现,我们已经不能简单的根据是比对DNA还是RNA来判断工具的选择,而是要判断reads的比对是否需跨外显子。比如PRO-seq/GRO-seq,它们在建库时捕获的RNA,但是它们并不需要考虑跨外显子的比对。
常用工具:
DNA-seq:bowtie;bowtie2;BWA
RNA-seq:STAR;HISAT2;Tophat
HISAT2不仅支持RNA-seq的比对还支持DNA-seq比对,唯一需要做的就是加上一个参数--no-spliced-alignment。但是就目前来看,大部分人都是使用HISAT2做RNA-seq,没人使用它做DNA-seq
STAR是ENCODE皇家御用的RNA-seq比对工具,ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。
几款比对工具的比较
可能是因为RNA-seq分析比较大众,因此大部分的比对工具都是利用RNA-seq的效率进行比较。对于 DNA-seq,最常用是 BWA;对于 RNA-seq,目前用的较多的是 HISAT2。
无论是HISAT2还是STAR,对于Tophat来说都有很大的优势,Tophat已不再继续更新,所以我们不再使用它。
对 RNA-seq 产出的数据进行变异检测分析,与常规重测序的主要区别就在序列比对这一步,因为 RNA-seq 的数据来自转录本,比对到参考基因组需要跨越转录剪切位点,所以 RNA-seq 进行变异检测的重点就在于跨剪切位点的精确序列比对。GATK 发布的 RNA-seq 数据变异检测最佳实践流程用了 STAR 2-pass 这一方法进行序列比对,STAR 比对速度还算挺快。
推荐文献:Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis Systematic evaluation of spliced alignment programsfor RNA-seq data
HISAT2,找到junction正确率最高,但是在总数上却比TopHat和STAR少,二类错误(纳伪)比较少,一类错误(弃真)有点高,灵敏度相对较低。STAR灵敏度更高,但是会有许多包含soft-clip的低质量比对,即对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度。
( junction:转录组reads比对不同于基因组reads比对(如ChIP-seq、WES等)的地方在于,比对的reads可能来源于2个被内含子隔开的外显子区域,导致reads一端比对在第一个外显子的后面部分,另一端比对在第二个外显子的前面部分,即跨剪切位点,从而形成exon-exon junction (剪接点)。这些reads又称为junction reads,对转录本的拼接、鉴定和差异分析具有重要的意义。)
(soft-clip事件: 即reads末端存在低质量碱基或接头导致比对不上的, STAR会自动尝试截去未比对部分,只保留比对上的部分。)
STAR的unique mapping比例最高,它对于双端测序的reads,要么全部比对上,要么全部抛弃,不会像TopHat和HISAT2一样只比对上某一个reads,即STAR相比较其他两款软件有较高的唯一比对率
就唯一比对而言,STAR是三者最佳的,主要是因为它不会像TopHat和HISAT2一样在PE比对不上的情况还强行把SE也比对到基因组上。而且在处理较长的read和较短read的不同情况,STAR的稳定性也是最佳的。就速度而言,在比对速度方面,HISAT2比STAR快2.5倍,比TopHat快大约100倍。
推荐一个网站,这里介绍了几种不同比对软件的使用方法(bowtie2, bwa, STAR, Tophat四种):homer。
在HOMER网站上,对几种比对软件进行的说明,可以看到STAR的速度是最快的,当然得保证有这么多的内存来运行:
bowtie: fast, works well
bowtie2: fast, can perform local alignments too
BWA- Fast, allows indels, commonly used for genome/exome resequencing 快速,允许indels,通常用于 基因组/外显子组 重测序
Subread- Very fast, (also does splice alignment)
STAR- Extremely fast (also does splice alignment, requires at least 30 Gb memory)
BWA mem算法产生的SNP 比bowtie2的高很多,大多数的variant calling的pipeline中都会推荐使用BWA比对工具。
基因组变异
https://www.jianshu.com/p/4453e58a9c96
变异检测工具的选择
GATK的HaplotypeCaller在精度和准确上都比FreeBayes, Platypus 和samtools 好。
samtools 在找indels更加的粗犷,找到了更多本来不存在的indels,但是在SNP上的表现其实是一致的。Samtools+bcftools 能Call SNP,速度会比GATK快。
GATK 能够利用机器学习的方法根据已有变异数据库进一步提高结果的准确度。但是对于植物而言,所能做的也就是硬指标过滤。因此,如果做人类,最推荐的工具是GATK,因为表现的确很好。而且人类还会不断增加样本,需要使用GVCFs文件解决N+1的问题。如果是植物,可以考虑freebayes,效率高,表现也不错。
xuzhougeng 推荐阅读这篇文献 "Single Nucleotide Polymorphism Identification in Polyploids: A Review, Example, and Recommendations"。
声明:本篇多为资料整理总结,仅用于自学记录和交流,侵删,谢谢。参考:
参考
https://www.bioinfo-scrounger.com/archives/288/
https://www.jianshu.com/p/5b6dfc954315
https://mp.weixin.qq.com/s/Gp1EJunbhcZ1x1V2augpSA
https://mp.weixin.qq.com/s/QVvfD9dIphRdE1RVkRpjdg
https://shengxin.ren/article/428
https://www.jianshu.com/p/b4b43e467c33
https://www.jianshu.com/p/b400dc7c5eea