生信log23|What?基因组checkm评估污染度居然高达40%?咋整?附Bandage的妙用

污染度高真的是基因组DNA样本本身受到污染吗?生信端这边还能不能救一下?

污染度高达40%以上的基因组

checkM评估污染度的原理

  • 这里想讨论的是checkM是怎么评估基因组的污染度:翻译一下下面这句话,checkM是根据单拷贝基因出现次数来评价污染度的,基因组中的单拷贝基因只能出现一次,换而言之出现了两个以上同单拷贝基因就会被视为污染。
CheckM评估基因组污染度的原理

声明

  • 这些基因组,提取了之后是测过16S rRNA基因序列验证的,测序公司返回的结果里面是没有杂带,测序结果中也不存在杂合的序列,说明细菌本身的基因组DNA是没有受到污染的,且通过barrnap预测抽取基因组16S rRNA的序列也仅有一条是符合的,且经过比对就是对应的菌株。

bandage查看拼接的路径

  • 肇事细菌基因组,下面还有好多碎片,人麻了


    示例菌株

没过滤前
checkM的评估结果


肇事菌株的checkM评估图
CheckM的详细指数

高达46%的污染度,

用bandage进行筛选

    1. 选择下面那些没有被拼到大线圈中的小片段,选择Hide selected nodes
选择所有小片段
    1. 选择剩下的一大团fasta,选择保存到fasta文件中


      选择大的片段进行保存
CheckM评估过滤后的片段
过滤后的序列
  • 完整度依然比较高,且污染度下降到仅剩0.44了


    过滤后的详细参数

后记
虽然暂时用bandage解决了挽救了一下基因组数据,但是还没探究到底是拼接出问题还是细菌本身受到了污染后续会继续看看序列过滤和拼接的。如果这种办法都不能出掉,在确认自己的样品没有污染的情况下,还是尽快地联系测序公司或者重新准备样品。
后续内容敬请期待,各位看官走过路过不要错过,点个赞再走呗。

你可能感兴趣的:(生信log23|What?基因组checkm评估污染度居然高达40%?咋整?附Bandage的妙用)