通过blast在基因组中找相似序列

人类基因组中存在大量的重复区域,给定一段序列,如何知道这段序列在基因组中是否具有唯一比对,或者具有多个比对?

一种方法是通过bwa,通过AS和XS 标签判断是否有次优比对;但是这种方法无法知道这段序列所有可能的比对位置;

另一种方法就是blast,blast分为网页版以及本地版;

网页版blast

网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi


点击Human,出现如下页面; 通过左上角的菜单,可选择比对数据库的类型;另外还可以设置参卡基因组的版本;


将序列复制到文本框中,点击blast;

本地版blast

1. 建立比对数据库

makeblastdb   -in  in.fasta   -dbtype nucl  -parse_seqids  -out  outdatabase

2. blast比对

blastn  -query  query.fasta  -out   query.fasta.blast   -db  outdatabase -outfmt   6

3. 比对结果如下

格式说明:

Query id,  Subject id, % identity, alignment length, mismatches, gap openings, q. start,  q. end,  s. start,  s. end,  e-value,  bit score

你可能感兴趣的:(通过blast在基因组中找相似序列)