Kmer评估基因组

参考 使用kmer来评估基因组特征 - 知乎,https://www.jianshu.com/p/94da86093843,用k-mer分析进行基因组调查:(一)基本原理_生信技工的博客-CSDN博客

1.基本定义

1.1  Kmer

在reads上,从第一个碱基开始,一个碱基一个碱基地移动,截取长度为k的DNA序列,称为k-mer.

Kmer评估基因组_第1张图片

Kmer评估基因组_第2张图片

 

1.2 杂合序列

在多倍体中(包含二倍体),同源染色体中的区域产生突变造成的序列。

1.3 杂合峰

Kmer评估基因组_第3张图片

Kmer评估基因组_第4张图片

Kmer评估基因组_第5张图片

Kmer评估基因组_第6张图片

1.4 重复序列

在基因组中,出现两次或以上的序列。

Kmer评估基因组_第7张图片

1.5  重复峰

Kmer评估基因组_第8张图片

2.Kmer分析

2.1 定义

可以通过观察和计算原始数据中的k-mer分布,推测出基因组的特征(基因组大小,重复率和杂合率)。

Kmer评估基因组_第9张图片

2.2 步骤

  1. 通过切割二代测序的reads为k-mers
  2. 统计k-mer的总数和每一种k-mer的频数
  3. 绘制k-mer的频数分布图
  4. 根据k-mer的频数分布的主峰峰值判定k-mer的期望深度(即主峰对应的k-mer频数)。
  5. 根据k-mer的期望深度和k-mer的总数估计基因组大小。
  6. 根据低频k-mer估计数据错误率,并修正基因组大小的估计。
  7. 根据k-mer的其他峰估计k-mer的杂合度和重复序列比例。

2.3 基因组大小

基因组大小G =(基因切割的Kmer数目)/(主峰深度)

理解:通过观察k-mer分布,我们可以知道切割的Kmer数目(即所有的碱基数量),Kmer峰所在的位置(这个峰值就是平均Kmer出现的频数,即平均每个碱基出现的次数),而基因组大小=全部的碱基数 / 平均每个碱基频数。

2.4 重复序列长度

重复序列的长度R = 重复序列的碱基数 / 平均每个碱基频数。

基因组中的单拷贝序列长度U = G-R

2.5 杂合率估算

假设基因组中的杂合率为h (每个碱基为杂合点的概率),一个Kmer是纯合体的概率为,则它是杂合的概率为,在二倍体中,单拷贝区域的同源区域,会产生的杂合Kmer。

2.6 图像分析

1. 简单基因组分析图

在理想状态下,K-mer曲线服从泊松分布,即只会出现一个明显的主峰。因此,当基因组中不存在杂合区和重复序列,或者杂合度较低、重复序列在整个基因组中占比较少时,通常会看到如图的K-mer频率分布图

Kmer评估基因组_第10张图片

注:基因组杂合度0.14,重复序列18.4%

2.高重复基因组分析图

基因组复制事件会使基因组中产生大量的重复序列。重复序列的存在使得基因组中某一个K的K-mer序列增多,即K-mer的出现频率增加,在进行K-mer分析时,表现为主峰拖尾或在主峰后对应横坐标的整数倍处出现重复峰。如图,Depth=29处是主峰,主峰位置之后Depth=55(约为主峰位置2倍处)及Depth>55后面的拖尾被认为是由基因组中的重复序列导致。

Kmer评估基因组_第11张图片

注:基因组杂合度0.31,重复序列62.6% 

3.高杂合基因组Survey分析图

在高杂合基因组中,序列中的杂合位点会使得该序列的K-mer分成两个部分,序列中某些碱基的覆盖深度也会相应减半。因此,与纯合序列相比,杂合片段中K-mer的覆盖深度会下降50%,表现为,在主峰前对应横坐标的1/2处出现一个小峰,且基因组的杂合度越高,该峰越明显。如图,Depth=359处是主峰,主峰位置之前Depth=179(约主峰位置1/2处)被认为是基因组杂合导致的。

Kmer评估基因组_第12张图片

注:基因组杂合度0.77,重复序列23.5%

2.7 Kmer的选择

  • K应该足够大到k-mer可以映射到基因组的唯一位置。
  • 太大的k-mer会降低去除低频k-mer代表的错误碱基的概率(增加错误率),也会降低k-mer深度(使得k-mer频数分布的峰不明显),而且大的k-mer会增加计算资源的使用。
  • 基因组调查一般选17,21比较常见
  • k-mer的长度代表了可能存在的k-mer种类的数量(4^K),越长的k-mer片段映射的物种特异性越强。基因组越大,需要的k-mer越长。
  • 当基因组中有较多重复序列时,可以用较大的k-mer来跨过高重复的区域。

你可能感兴趣的:(Kmer评估基因组)