生信软件的使用:fastacmd的提取较大基因组序列

写在前面:

最近要将参考基因组(4.1G,粗山羊草)的每一条染色体单独提取出来,之前我写过一个使用faSomeRecords的帖子基因组学5-利用faSomeRecords根据基因ID提取基因序列 - ,本想使用那种方法进行染色体的提取,然而发现了一些问题,推测可能是参考基因组太大,超过了该软件的限制。报错如下:

$:faSomeRecords ae.tauschii.genome.fa ae.tauschii.chr1.txt test

Line too long (more than 536870912 chars) line 4 of ae.tauschii.genome.fa



正文:

为了解决这个问题,想到了使用fastacmd,关于该软件的详细用法,官网如下http://nebc.nox.ac.uk/bioinformatics/docs/fastacmd.html,有兴趣的可以仔细看看!

安装步骤在此不再叙述,可以使用自己编译,也可以从conda下载。

然而该软件的使用首先需要对参考基因组进行blast建库。

makeblastdb -in ref.fasta -dbtype nucl -out ref.database -parse_seqids

建库成功后,将会得到如下几个文件。



然后可以调用该软件,使用以下命令

fastacmd  -d  ae.tauschii.genome -i chr1d.txt -o chr1d.genome.fa

chr1d.txt文件内容只有一行,就是chr1D,记住不要加>号!

周后就可以得到chr1D的基因组序列了!



后记:

最近好几个朋友问我还在更新帖子不,其实中间因为课题比较忙,断更了快2个月。后来想了想,时间紧的话,就在帖子里少叙述一些,时间充足就多写一些,写得详细一些。但一定要保持下去。

也很感谢每一位读者对我的鼓励和支持,这也是我不断写下去的动力!

你可能感兴趣的:(生信软件的使用:fastacmd的提取较大基因组序列)