三代STR检测软件tandem-genotype实操

作者:大行山
审稿:童蒙
编辑:angelica

背景

在人类基因组中有近一半的序列为重复序列,根据重复序列的重复单元长度分为STR、微卫星、转座元件等。目前已知有30多种疾病跟STR有关。这里介绍的软件tandem-genotypes,主要针对STRs。

软件操作

软件tandem-genotypes的主要操作步骤包括:
1.基因组数据库构建
2.数据比对
3.检测重复序列
4.多样本合并
5.结果展示及可视化

1.数据库构建

在检测TRs分析中,推荐使用GRCh38,该版本的基因组注释更全,得到的STRs相对更准确。该步骤,所有项目都是一样的,其实就是检索参考基因组中的重复序列,包括4步。

windowmasker -mk_counts -mem 10000 -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wmstat
windowmasker -ustat GRCh38.wmstat -outfmt fasta -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wm.fa
lastdb -P 8 -u YASS -R 11 -c GRCh38_db GRCh38.wm.fa
tantan -f 4 -w 2000 Homo_sapiens.GRCh38.100.chr.fa > GRCh38.tantan_out

2.比对

在该步骤中可以参考上面的流程图,主要包括2步,第一步是预测测序的碱基错误率,第二步是比对。

last-train -P 8 -Q 0 GRCh38_db M430a1.par
lastal -P 8 -p M430a1.par GRCh38_db M430a0.ccs.fq |last-split > M430a0.maf

3.检测重复序列

可以看到前面的分析主要使用的是其他软件,到这里才开始使用tandem-genotypes,该软件主要用来鉴定STR。

tandem-genotypes -n 10 -g GRCh38_refGene.flat.txt GRCh38.tantan_out M430a0.maf > M430a0.TR.genotype

4.多样本结果合并

这个步骤主要是在人群上比较不同样本之间STRs的差异,便于筛选候选致病的STRs。

tandem-genotypes-join M430*genotype > sample.M430.merge.out

5.结果显示及可视化

这里展示3个样本的合并结果中的第一个结果。表1 结果示例



对该结果进行可视化,命令如下:

/minicoda3/bin/python3.9 /tandem-genotypes-master/tandem-genotypes-plot sample_all.merge.out
图:tandem-genotypes结果展示。横坐标表示STR的拷贝数,纵坐标表示支持该拷贝数的reads数目。红色表示链1或者正链的reads,蓝色表示链2或者负链的reads。

注意

在数据库构建过程中,为了加快速度,可以考虑拆分为单个染色体进行,最后再合并。

总结

软件tandem-genotypes支持在全基因组范围内检测STR,需要输入的数据包括三代测序数据,参考基因组fa文件,参考基因组基因信息。如果参考基因组版本不变,其中的建库步骤可以一次完成,多次使用。该软件整体使用友好,结果可读性好,满足STR的基本需求。

参考资料

  1. Koning A D , et al. Repetitive elements may comprise over two-thirds of the human genome.[J]. PLoS Genetics, 2011, 7(12):e1002384.
  2. Liehr, T. Repetitive Elements in Humans. Int. J. Mol. Sci. 2021, 22, 2072
  3. Mitsuhashi, S. , et al. "Tandem-genotypes: robust detection of tandem repeat expansions from long DNA reads." Genome Biology 20.1(2019):58-.
  4. Tandem-genotypes:https://gitee.com/bucongfan/tandem-genotypes

你可能感兴趣的:(三代STR检测软件tandem-genotype实操)