【WES 01】结题报告阅读

参考:生信技能树;百迈克生物科技;晶能生物;华大基因;千年基因


image.png

一、外显子组测序技术简介

外显子测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后,再进行高通量测序的基因组分析方法。
外显子组序列仅占全基因组序列的1%左右,与人类85%致病基因突变相关。与全基因组测序相比,外显子组测序不仅费用较低,而且测序覆盖度更深,数据准确性更高。

二、外显子组测序流程

image.png
2.建库
3.捕获

三、分析流程

晶能:分析的流程————QC>比对>SNP识别>b变异体注释

华大

1.数据过滤与评估

过滤接头。对含接头的reads去除接头序列。
一条reads上N(未能确定出具体的碱基类型)的比例大于5%,则过滤掉该reads。
过滤低质量reads,过滤掉Q30<85% reads。


image.png
质量分布图和碱基含量分布图

adapter

2.整体质量评估(比对)

通过bwa软件将reads map到标准参考基因组上(UCSC hg38),去除无法map到参考基
因组和多重map的reads后进行后续分析,大约有99.5%的reads能进行下一轮分析。


image.png

1.测序深度统计
2.外显子捕获统计
3.染色体覆盖深度分布

3.SNP检测与注释

使用Samtools对测序结果与参考基因组进行比对,找出样品中存在的变异信息,包
括SNV、InDel等,并对其进行注释及功能预测,包括dbSNP、1000G数据库、SIFT、
Polyphen-2及GERP等软件

1.使用GATK软件包
2.突变特征

image.png

image.png

4.InDel检测与注释

5.高级分析

1.基因融合

2.氨基酸替换预测

image.png

3.样品间差异表达基因GO分类

image.png

4.差异表达基因KEGG注释


image.png

四、应用思路

1、寻找孟德尔疾病致病基因思路

image.png

2、复杂疾病的研究思路

image.png

总结:数据分析流程

image.png

image.png

高通量测序相关名词

  • 外显子组测序:是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高
    通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基
    因的SNP、 InDel 等具有较大的优势。
  • 测序深度:测序得到的总碱基数与待测区域大小的比值。如使用Illumina TruSeq Exome
    Enrichment Kit,该试剂盒的捕获范围为62M,测序得到620M数据量时,测序深度为
    620/62=10×。
  • 覆盖率:指测序获得的序列占整个待测区域的比例。如外显子组测序的覆盖率是98%,
    则表示仍有2%的序列区域是没有通过测序获得的。
  • Read:就是读长,就是高通量测序时一个反应所能测出的碱基数。
  • SNP(single nucleotide polymorphism):单核苷酸多态性,个体间基因组DNA序列同一
    位置单个核苷酸变异(替代、插入或缺失)所引起的多态性;不同物种个体基因组 DNA 序
    列同一位置上的单个核苷酸存在差别的现象。
  • InDel(Insertion/Deletion):插入/缺失,是指两种亲本在全基因组中的差异,相对另一
    个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失。
  • CNV(copy number variation):基因组拷贝数变异,是基因组变异的一种形式,通常使
    基因组中大片段的DNA形成非正常的拷贝数量。
  • SV(structure variation):基因组结构变异,染色体结构变异是指在染色体上发生了大
    片段的变异。主要包括染色体大片段的插入和缺失,染色体内部的某块区域发生重复复
    制、翻转颠换、易位、两条染色体之间发生重组等。

你可能感兴趣的:(【WES 01】结题报告阅读)