生信入门:使用shell脚本批量修改fasta文件中序列名字

从NCBI上下载Escherichia coli str. K-12 substr. MG1655的所有的基因序列


生信入门:使用shell脚本批量修改fasta文件中序列名字_第1张图片
image.png

点击Create File 就能下到序列如下:

生信入门:使用shell脚本批量修改fasta文件中序列名字_第2张图片
image.png

如果序列的名字太长,希望简化一下名字,方便下游数据分析
举一个列子,想使用“gene=”之后的基因缩写名字来重命名

sed 's/>.*\[gene=/>/;s/\].*//' ecoli.cds > ecoli.cds.rename

其中ecoli.cds为下载的基因序列

也可以使用正则表达式来实现
()是扩展正则表达式的元字符,sed软件默认识别基本正则表达式,-r :支持扩展表达式,后面被替换的内容中的\1就是取前面的括号里的内容了

sed -r 's/>.*gene=([a-zA-Z]*).*/>\1/' ecoli.cds > ecoli.cds.rename

查看结果


生信入门:使用shell脚本批量修改fasta文件中序列名字_第3张图片
image.png

感谢您的阅读,欢迎点赞、评论、支持和转发!!

生信入门:使用shell脚本批量修改fasta文件中序列名字_第4张图片
image

你可能感兴趣的:(生信入门:使用shell脚本批量修改fasta文件中序列名字)