根据基因名称批量提取基因序列

实验中经常需要从基因组中提取、序列用于设计引物,或者进行基因功能研究等,之前看到别人使用的一个脚本,自己拿来用一下,感觉确实很方便

在网站 http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/(网站内还有很多其他脚本可以下载使用,有时间可以研究一下)
下载faSomeRecords脚本:faSomeRecords.txt

faSomeRecords

将txt后缀删除后拷贝到指定的文件夹下即可运行,运行命令行加载脚本:

chmod +x faSomeRecords  
# 赋予文件可执行权限,为Linux系统下执行   

执行如下命令,找到自己需要的序列,一般使用CDs序列文件

./faSomeRecords genome.cds.fa ID.txt out.gene.fa   # 执行中 ./ 不能删除 
# 其中genome.cds.fa是原始的fasta文件,包含自己需要的基因  
# ID.txt 是需要查找并导出的基因ID,每行一个  
# out.gene.fa 为输出文件,包含对应ID的序列信息。
CDs文件示意图
ID.txt文件示意图
out.gene.fa输出文件示意图

你可能感兴趣的:(根据基因名称批量提取基因序列)