2020.9.12丨变异检测的原理&应用方向

  • 变异检测的原理&技术要点
    • 定义:变异检测是指 通过测序 技术对某一物种个体或群体的基因组进行测序及差异分析,获得单核苷酸多态性SNP )、插入缺失 InDel )、结构变异( SV )、拷贝数变异CNV )等大量的遗传变异信息用于开发分子标记建立遗传多态性数据库,为后续揭示进化关系、挖掘功能基因等奠定数据基础。
    • 按照片段大小分类:
      • 单碱基:SNP
        • SNP (单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性,包括单个碱基的转换、颠换等。利用 GATK软件对群体数据进行变异检测及过滤,进一步 过滤 SNP 的 reads 支持数小于 4 的位点,得到高可信度的 SNP
      • 1-50bp:InDel
        • InDel 是指基因组中小片段的插入和缺失序列,其长度在 1 50bp 之间。我们采用 GATK 软件进行个体 InDel 的检测。 Small InDel 变异一般比SNP 变异少,同样反映了样品与参考基因组之间的差异,并且编码区的 InDel 会引起移码突变,导致基因功能上的 变化。
      • 50-1000bp:SV
        • SV
          • (结构变异)指基因组水平上大片段的插入、缺失、倒置、易位等序列。可利用 Lumpy, Manta, Delly 软件,基于 pair endreads 比对到参考基因组上面的关系及实际 insert size 大小检测样品与参考基因组间的插入( insertion INS )、缺失 deletionDEL )、倒置 inversion INV )、染色体内部迁移 intra chromosomal translocation ITX )、染色体间的迁移 interchromosomal translocation CTX 。
      • 大于1000bp:CNV
        • 拷贝数异常
        • (copy number variations, CNVs 是属于基因组结构变异( structural variation ),根据大小可分为两个层次:显微水平microscopic )和亚显微水平 ( 。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变 , 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb 3Mb 的基因组结构变异 , 包括缺失、插入、重复、重排、倒 位、 DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性 (copy number polymorphisms, CNPs )。
    • 名词解释
      • 测序深度 :测序得到的总碱基数与基因组大小的比值。
      • 覆盖率: 指测序获得的序列占整个基因组的比例,与测序深度正相关。
      • 比对率( mapping rate )):反映了样本测序数据与参考基因组的相似性 需要 70 %%,最好
      • 90% 以上。
  • 二、三代变异检测简介&应用方向
    • 简介
      • 全基因组重测序(WGS )):对基因组序列已知的个体进行全基因组测序,并在个体或群体水平上进行差异性分析的方法。
        • 优势:获得的基因组信息全面,高分文章青睐,循环使用性高
        • 不足:成本高
      • 简化基因组测序:指用限制性内切酶对基因组进行简化,只对酶识别位点相关的 DNA 进行高通量测序。
        • 优点:快速、简便、低成本
        • 不足:
        • 1) 只能获得 SNP 等信息, SV 、 CNV 检测可靠性较低
        • 2) 用酶切的片段进行测序,基因组覆盖度低,获得变异信息不全
        • 3) 建库前需要进行酶切评估,建库分析结果,受酶切评估结果和基因组组装质量所限
        • 4) 多数应用在影响因子 5 分以下的期刊,如 BMC 、 Plos one 等
      • 检测数据量推荐:检测 SNP 5 10 × ;检测 InDel 10 15 × SV 15 20 × CNV 30 ×
    • 检测分析流程
      • 流程图2020.9.12丨变异检测的原理&应用方向_第1张图片
      • 流程推荐软件
        • 分析流程:使用软件
        • 数据质控:Fastqc
        • 比对:BWA
        • SNP、 InDel 检测 :GATK
        • SV检测: Manta、 Delly
        • CNV检测 :CNVnator
        • 注释:ANNOVAR
        • 圈图绘制:Circos
    • 应用方向
      • 基于二代测序检测到的SNP 位点,后续可分别做群体进化、 GWAS 、 BSA 、遗传图谱,具体的应用方向如下所示:2020.9.12丨变异检测的原理&应用方向_第2张图片
    • 优势和短板
      • 三代优势
        • 长 读长
          • 处理重复区域;
          • 提供连续的基因组装配;
        • 均衡的测序覆盖度
          • 没有偏好性 (GC%, 序列复杂度
          • 能够进行完整基因组测序;
        • 无测序系统偏差
          • Random errors wash out in final consensus 在最终的一致性序列中,去除了随机错误 
          • 提供准确的基因组序列。
      • 二代短板
        • 读长短:导致组装不完全无法跨越重复序列
        • 覆盖度不均一;G/C 或 A/T 富含区域是 重灾区 无法达到真正意义上的全
        • 基因组测序;
          • 扩增等因素导致系统错误 (指测序的准确率
          • 适用于 SNP 检测 不适用大范围的结构变异检测
    • 三代检测类型
      • CLR与CSS
        • 图示2020.9.12丨变异检测的原理&应用方向_第3张图片
      • 两种测序模式对比2020.9.12丨变异检测的原理&应用方向_第4张图片
      • CLR检测SV
        • CLR检测SV数据量推荐
          • 构建 CLR 文库, 15 30 × 测序深度时, SVs 检测准确度和检出率在 80 85%
          • 对于大片段 SV 检出率、准确度更高。
          • 图示2020.9.12丨变异检测的原理&应用方向_第5张图片
        • CLR检测SV混样的可行性
          • 图示2020.9.12丨变异检测的原理&应用方向_第6张图片
        • CLR检测SV分析流程
          • 图示2020.9.12丨变异检测的原理&应用方向_第7张图片2020.9.12丨变异检测的原理&应用方向_第8张图片
      • HiFi变异检测SNP、InDex
        • SNV检测 15 × 可检测到 99.5%的变异,至少需要 10 ×;
        • InDel 17 × 可检测到与 NGS 相当的变异(90% );
        • SV 检测15 × 检测到 95% 的变异 。
        • 文献参考2020.9.12丨变异检测的原理&应用方向_第9张图片2020.9.12丨变异检测的原理&应用方向_第10张图片
          Accurate circular consensus long
          read sequencing improves variant detection and assembly of a human genome 2019 Nature Biotechnology
        • 分析流程
          • 图示2020.9.12丨变异检测的原理&应用方向_第11张图片2020.9.12丨变异检测的原理&应用方向_第12张图片2020.9.12丨变异检测的原理&应用方向_第13张图片
  • 总结
    • 1.与 CLR 相比, HiFi 检测到的SV 边界更好,断点更明显;
    • 2. CLR 变异一般用于检测 SV可以和二代数据联合起来;HiFi 可检测 SNP 、 InDel 、SV 等;
    • 3. CLR 检测推荐测序深度 30 ×以上; HiFi 推荐 15 × 的测序深度。
    • 思路一:有参考基因组
      • CLR :长读长的优势,碱基准确度相对较差的劣势,建议三代数据检测并结合二代数据进行纠错
      • CCS HiFi :较高的碱基准确度,可同时检测 SNP/ InDel /SV ,无需二代数据校准
      • 可基于长读长对基因组补 gap ,获得更精确信息。
    • 思路二:无参考基因组
      • CLR :组装参考基因组
      • CCS HiFi :较高的碱基准确度,更有利于分型与重复区域的组装,更节省时间周期
      • 组装完成后,基于所测二代和三代数据进行结构变异检测,提高数据利用率。
  •  

你可能感兴趣的:(心得,重测序,基因组)