Python解析命令行调整fasta文件显示宽度

是不是厌倦了改python脚本的输入、输出以及其他参数,或者简单点在python脚本中使用input()函数,手动输入完整内容,可以尝试解析命令行参数,享受tab补全的优点。


本文主要涉及python命令行解析,python命令行解析实例之fasta文件固定宽度显示。

事情是这样的,遇到了不同显示宽度的fasta文件,下图这样:

图一:待处理fa文件

图一是宽度不等的fa文件截图,去掉了">"开头的序列名。

想要把它们的显示宽度调整的一样,然后就去搜,发现了下面两文:

python3生信入门-根据指定碱基长度,合并或分割fasta文件中的每条序列并按行排列输出
python Fasta文件格式化-每行固定数目碱基输出

参考以上两文就改出了下面的代码:

以下内容在是在Ubuntu上操作的,未在其他系统测试。


## fasta文件按照指定宽度显示
length = eval(input("输入希望的换行字符数,超过最长序列表示单行:\n"))
f = open("fasta文件.txt")# 待处理序列文件

fasta = {}
for line in f:
    line = line.strip("\n")
    if ">" in line:
        seq_id = line
        fasta[seq_id] = ''
        continue
    fasta[seq_id] += line
f.close()

out_fasta =  open("out.fa", "w")# 输出序列文件
for key, value in fasta.items():
    out_fasta.write(key+"\n")
    while len(value) > length:
        out_fasta.write(value[0:length] + "\n")
        value = value[length:len(value)]
    out_fasta.write(value + "\n")

out_fasta.close()

涉及python语法包括读写文件、字典操作、循环与判断。知道字典强大,没看参考之前没想到使用字典,看完加深了对字典的认识。一开始的输入输出文件是固定的,如果要处理不同的文件就要去改脚本,受到前面两文解析命令行的启发,也学习了点python解析命令行,真的是点到为止。

加上解析命令行后的脚本是这样的:

#!/usr/bin/python3
import argparse # argparse是标准库里的模块 

parser = argparse.ArgumentParser(description='这是调整fasta文件显示宽度的python小脚本,需要三个参数,分别是输入原始fasta文件,输出fasta文件,需要的宽度,特别大超过最长序列则为一行')
parser.add_argument('-i', '--input', dest='Input', type=str,default='fasta.fa', help='需要处理的fasta文件')
parser.add_argument('-o', '--output', dest='Output', type=str,default='out.fa', help='output fasta文件')
parser.add_argument('-w', '--width', dest='Width', type=int, default='60', help='seq width')
option = parser.parse_args()

print(option)

length = option.Width

f = open(option.Input)# 待处理序列文件
fasta = {}
for line in f:
    line = line.strip("\n")
    if ">" in line:
        seq_id = line
        fasta[seq_id] = ''
        continue
    fasta[seq_id] += line
f.close()

out_fasta =  open(option.Output, "w")# 输出序列文件
for key, value in fasta.items():
    out_fasta.write(key+"\n")
    while len(value) > int(length):
        out_fasta.write(value[0:length] + "\n")
        value = value[length:len(value)]
    out_fasta.write(value + "\n")
out_fasta.close()

这是在参考了上面两文和下面两文后写出来的python解析命令行:

Python3之命令行参数处理
python3中argparse模块

鉴于参考已经进行了详尽介绍,本文就不过多描述,关于更详细的python解析命令行请阅读以上两文,参考中给出了链接。

图二是该小脚本用法。


图二:用法

图三是60碱基宽度显示。


图三:60碱基宽度

图四是120碱基宽度显示。
图四:120碱基宽度

每条序列显示为一行就不插图了,太长。
其实本文并没有讲述python是如何解析命令行的,前面说了点到为止,一样需求的可以照着改,如果有更高需求可以看看下面的链接,进行深入学习。

参考:
http://blog.sciencenet.cn/blog-3406804-1167451.html
https://blog.csdn.net/niuhuihui_fei/article/details/72401387
https://www.cnblogs.com/songguoyou/p/11919730.html#optparse%E6%A8%A1%E5%9D%97
https://www.cnblogs.com/dengtou/p/8413609.html

你可能感兴趣的:(Python解析命令行调整fasta文件显示宽度)