生信 | 基因组组装实战(一):基础知识与基本思路

写在前面

  • 以下内容均来自菲沙基因(Frasergen)暑期生信培训班课堂笔记

1. Genome de nove 基础知识

➢ 基因组(Genome)

基因组就是物种所含有的一套遗传物质(单倍体细胞核、细胞器所含的全部DNA分子) , 包括全套基因和间隔序列。

  • 基因组

➢ 基因组测序(Genome Sequencing)

➢基因组测序

  • 利用测序技术对物种的体内的所有DNA分子进行测序,获取碱基组成,明确出基因的结构信息,外显子及内含子区域、启动子位置,以及基因的排列顺序及功能。

➢基因组测序技术

  • 二代测序: 基于BGI平台的边合成边测序;
  • 三代测序:基于PacBio平台的单分子实时测序。

➢基因组测序原理

  • 通过对基因组DNA序列进行打断处理 ,制作成可以识别或读取的DNA形式及大小,利用荧光标记对每个碱基信号进行读取,进而获得DNA序列信息。

➢ 基因组从头测序(Genome de nove)

  • 基因组de nove,又称为基因组从头测序,是指对基因组序列未知(或仅有基因组草图)的物种进行全基因组测序,然后进行拼装,从而得到该物种的全基因组序列,为后续功能基因挖掘、调控代谢网络构建、物种进化分析等奠定基础。
    Genome

➢ 构建参考基因组 pipeline

构建参考基因组 pipeline

2. pipeline的功能简介

➢ 基因组 Survey 分析

  • 基因组Survey基于小片段文库的低深度测序数据( 50X-100X ) ;

  • 通过K-mer分析 ,有效的评估基因组大小、GC含量、杂合度以及重复序列的含量等信息;

  • 是全面了解某一物种基因组特征的有效方法;

  • 为后续的全基因组 de novo 测序的组装策略的制定提供理论依据。

    Genome Survey

  • 补充知识(一): 基因组复杂程度预估
    基因组复杂程度预估
  • 补充知识(二):根据K-mer图确认物种倍型

二倍体:杂合峰:主峰:重复峰 = 1:2:4(比值为横坐标峰的比值)

二倍体K-mer图
三倍体:正常情况下杂合峰:主峰:重复峰 = 1:2:3(左图)。主峰和重复峰深度低则可能重叠在一起:杂合峰:主峰:重复峰 = 1:2(右图)]
三倍体K-mer图
异源四倍体:2个峰,呈现1:2的关系
异源四倍体K-mer图
同源四倍体:同源四倍体的峰就是1 : 2 : 3 : 4 ,其中3和4经常重叠在一起
同源四倍体K-mer图

  • 补充知识(三):Survery的优势
Survery的优势

➢ 基因组组装与注释

  • 基本概念与原理
  • Contig:使用短reads之间的overlap关系拼接所得的无GAP序列片段
  • Scaffold:通过大片段文库将Contig进-步连接所得的长序列片段,各个Contig之间用"N"填补
    关系图
  • 组装质量评价基本指标:ContigN50SeaffoldN50
    组装质量评价基本指标
  • 将组装所得序列从大到小排列,并依次相加,当累加长度达到总长度一半时,最后一条序列的长度即为N50;一般来说,N50越大,组装结果的连续性越好
  • 组装流程
组装流程
  • 组装
    常用软件有Canu, MECAT, FALCON。从项目周期、组装结果、资源消耗等方面综合来看,菲沙基因(Frasergen)他们首选Mecat 2进行基因组组装。

  • Hi-C辅助组装
    Hi-C数据的一般规律:
    ➢ 染色体内的互作高于染色体间的互作
    ➢ 染色体内互作强度随线性距离增加而减弱


    Hi-C辅助组装
  • 组装结果评估

    数据回比:为了评估组装的完整性和测序覆盖的均匀性,选择CLR (Continuous Long Reads) subreads ,使用比对工具Minimap2 ( v2.5默认参数)比对回组装好的基因组,统计reads的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性,结果如下表所示。
    数据回比结果

    BUSCO评估:基于OrthoDB中的单拷贝同源基因集,使用BUSCO ( V3.0.2 )预测这些基因并统计其完整度,碎片化程度及可能的丢失率。由此评估整个组装结果中基因区的完整性(大于90%较好)。BUSCO评估结果如下表所示。
    BUSCO评估
  • 基因结构注释
    基因结构预测包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子和终止子、可变剪切位点以及蛋白编码序列(CDS)等


    真核基因结构
  • 基因功能注释
    全基因组测序将产生大量数据,此前普遍采用比对方法对对预测出来的编码基因进行功能注释,通过与各种功能数据库(NR、Swiss-Prot 、GO、KOG、KEGG)进行蛋白质比对,获取该基因的功能信息。其中GO和KEGG数据库分别在基因功能和代谢通路研究中占据重要地位。

    基因功能注释

  • 非编码RNA注释
    非编码RNA(ncRNA),指不翻译成蛋白质的RNA,如
    miRNA(MicroRNA),
    tRNA(转运RNA),
    rRNA(核糖体RNA),
    snRNA(小核RNA)等。
    利用tRNAscan-SE对全基因组进行tRNA预测;利用RNAmmer预测全基因的rRNA;利用Rfam数据库通过cmscan鉴定全基因组非编码RNA


    非编码RNA
  • 重复序列分析
    重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间,根据分布把重复序列分为分散重复序列(Interpersed repeat)和串联重复序列(Tendam repeat)


    重复序列分析
  • 基因组圈图结果展示
    基因组圈图

➢ 比较基因组学

  • 比较基因组学是从基因组中解析生物学意义


    比较基因组学流程图
  • 基因家族聚类
    基因家族聚类
  • 系统进化树
    系统进化树
  • 物种分歧时间计算
    物种分歧时间
  • 基因家族扩展收缩分析
    基因家族扩展收缩分析
  • 正选择分析
    正选择分析
  • 共线性分析(需到染色体水平)
    共线性分析
  • 全基因组复制分析(WGD)
    全基因组复制分析(WGD)
  • 泛基因组分析(需要多份基因组de nove测序数据)
    泛基因组分析

写在最后

  • 已发表动植物基因组文章汇总(截止于2021年)
    链接:https://pan.baidu.com/s/1t_xbRf4Bj3DoHTQV-y6xAQ
    提取码:yyds
    已发表动植物基因组文章部分截图(截止于2021年)

你可能感兴趣的:(生信 | 基因组组装实战(一):基础知识与基本思路)