python 处理xml文件

python 处理xml文件

  最近基因注释需要查阅文献是否报道过。由于基因很多,想了一个办法。

NCBI上每个蛋白有关的登录号下会有文献的题目。根据序列比对结果,然后调取对应的文献。

首先获取小麦族(147389)所有的199754条蛋白序列,截止日期是17-5-22.

下载的格式是INSDSeq XML格式。下载之后需要转换成表格形式

首先需要编辑下下载的xml文件,分别在文件头以及文件尾分别添加如下内容:




# 末尾

python 代码

try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

tree = ET.ElementTree(file='147389_protein.xml')
for elem in tree.iter():
    if elem.tag == 'GBSeq_locus':
        print elem.text + '\t',
    if elem.tag == 'GBSeq_length':
        print elem.text + '\t',
    if elem.tag == 'GBSeq_definition':
        print elem.text + '\t',
    if elem.tag == 'GBReference_title':
        print elem.text + '\t',
    if elem.tag == 'GBReference_journal':
        print elem.text + '\t',
    if elem.tag == 'GBSeq_sequence':
        print elem.text.upper()

你可能感兴趣的:(python)