bedtools获得基因组指定范围的序列

·# getfasta

../../_images/getfasta-glyph.png

bedtools getfasta extracts sequences from a FASTA file for each of the intervals defined in a BED/GFF/VCF file.

用法

 bedtools getfasta [OPTIONS] -fi  -bed 

-fi 基因组文件
-bed bed,gff,vcf格式文件

我只测试了bed格式文件。最基本的bed文件需要3列
染色体名字 序列开始位置 序列结束位置

$ cat test.bed
chr1 5 10

$ bedtools getfasta -fi test.fa -bed test.bed
>chr1:5-10
AAACC

# optionally write to an output file
$ bedtools getfasta -fi test.fa -bed test.bed -fo test.fa.out

$ cat test.fa.out
>chr1:5-10
AAACC

这是最基本的用法。

2,正负链问题
网上说参考基因组是正链。bedtools最基本的用法不用提供正负链信息。其实默认的就是截取基因组的区间序列,既然参考基因组是正链,那么默认截取的就是正链序列。如果bed文件有正负链信息,负链的序列就是软件默认情况下截取的序列的反向互补序列。实际我验证后,结果也确实如此。

bedtools有个-s参数,开启后会区分正负链信息。

如果有正负链信息,在bed中标注好。但是无论你标注+-与否,其实基因组的区间信息是一样的。

bedtools官网参考资料:
这软件的文档真良心之作。有图有例子。
https://bedtools.readthedocs.io/en/latest/content/tools/getfasta.html

你可能感兴趣的:(bedtools获得基因组指定范围的序列)