人类不同版本参考基因组的坐标转换

这方面的应用场景不多,之前偶尔遇到,使用的是网页工具:
http://genome.ucsc.edu/cgi-bin/hgLiftOver

一直没有出现什么问题,今天突然看到这个错误,暂时没有深究是什么导致的,想着换个命令行工具试试(网页工具体验一般不好)

在谷歌上搜索“genome coordinates conversion”,可以看到一个biostars上面的回答:https://www.biostars.org/p/65558/。推荐了很多工具:

  1. UCSC liftOver
  2. NCBI Remap
  3. The Ensembl API
  4. Assembly Converter
  5. Bioconductor rtracklayer
  6. CrossMap
  7. Picard Liftover VCF
    ......

我试了一下CrossMap

1. 安装

./pip install CrossMap

2. 下载Chain file

3. 使用

很简单,以bed为例

CrossMap.py bed chain_file input_bed_file [output_file]

./CrossMap.py bed \
NCBI36_to_GRCh38.chain.gz \
amplifications.bed \
amplifications_hg38.bed

有意思的是,行数变了,说明转换过程中对应的基因组区间不是连续的

wc -l amplifications.bed amplifications_hg38.bed
  17 amplifications.bed
  43 amplifications_hg38.bed

你可能感兴趣的:(人类不同版本参考基因组的坐标转换)