用biopython解析序列

#01 读取常见的序列文件格式(fasta,gb)
from Bio import SeqIO
# 读取包含单个序列 Fasta 格式文件
fa_seq = SeqIO.read("bio and python练习/sequence01.fasta", "fasta")
print(fa_seq)
print('\n')

# 逐行读取包含多个序列的 fasta 格式文件
for fa in SeqIO.parse("bio and python练习/multi_sequence.fasta", "fasta"):
    print (fa.seq)
print('\n')

# 一次读取包含多序列文件中所有序列的fasta 格式文件
seqs = [fa.seq for fa in SeqIO.parse("bio and python练习/multi_sequence.fasta",  "fasta")]#列表推导式
print (seqs)
# 如果不想要seq对象中的字母表,可以用str()来强制类型转换
seqs = [str(fa.seq) for fa in SeqIO.parse("bio and python练习/multi_sequence.fasta",  "fasta")]
print (seqs)

print('\n')
#02 浏览 fasta 序列文件内容
from Bio import SeqIO
# 读取包含单个序列 Fasta 格式文件
fa_seq = SeqIO.read("bio and python练习/sequence01.fasta", "fasta")
print(fa_seq)#浏览文件中的所有内容
print('\n')

# =====获取详细的信息=====
# 提取基因ID,name
# Fasta 文件中序列名所在行的第一个词被作为 id 和 name
print ("id: ", fa_seq.id)
print ("name: ", fa_seq.name)
# 基因 Description 是fasta文件格式中的第一行
print ("description: ", fa_seq.description)
# 序列
print ("seq: ", fa_seq.seq)
# 序列来源库信息(NCBI的数据库信息会包括数据库交叉引用)
print ("dbxrefs: ", fa_seq.dbxrefs)
# 全部序列的注释信息
print ("annotations: ", fa_seq.annotations)
# 序列中每个字母的注释信息
print ("letter_annotations: ", fa_seq.letter_annotations)
# 部分序列的注释信息
print ("features: ", fa_seq.features)
print('\n')

#03浏览 genebank 序列文件内容
from Bio import SeqIO

# 读取包含单个序列的 gb 格式文件
gb_seq = SeqIO.read("bio and python练习/sequence01.gb", "genbank")
print (gb_seq)#预览文件中的所有内容
print('\n')

# =====获取详细的信息=====
# 提取基因ID,name
# gb文件中序列名包含比fasta更加详细的序列信息,下面分别是 id 和 name
print ("id: ", gb_seq.id)
print ("name: ", gb_seq.name)
# 基因 Description 是fasta文件格式中的第一行
print ("description: ",  gb_seq.description)
# 序列信息, 这里的序列信息是以 bioPython 中的seq对象存储
print ("seq: ", gb_seq.seq)
# 序列来源库信息(NCBI的数据库信息会包括数据库交叉引用)
print ("dbxrefs: ", gb_seq.dbxrefs)
# 全部序列的注释信息
print ("annotations: ", gb_seq.annotations)
# 序列中每个字母的注释信息
print ("letter_annotations: ", gb_seq.letter_annotations)
# 部分序列的注释信息,SeqFeature 对象的形式保存了features table中的所有entries(如genes和CDS等)
print ("features: ", gb_seq.features)
# 该基因的物种信息
print ("organism: ", gb_seq.annotations["organism"])
# 关于序列的注释信息,相关数据库的交叉引用号
print ("comment: ", gb_seq.annotations["comment"])
# 序列来源的物种名
print ("source: ", gb_seq.annotations["source"])
# 该基因的分类学信息
print ("taxonomy: ", gb_seq.annotations["taxonomy"])
# 该基因的整理后的注释信息
print ("structured_comment: ", gb_seq.annotations["structured_comment"])
# 该基因序列相关的关键词
print ("keywords: ", gb_seq.annotations["keywords"])
# 该基因的相关文献编号,或递交序列的注册信息
print ("references: ", gb_seq.annotations["references"])
# 该基因的入库时,给的基因编号,以及在染色体上的位点信息
print ("accessions: ", gb_seq.annotations["accessions"])
# 该基因的分子类型,一般为 DNA
print ("molecule_type: ", gb_seq.annotations["molecule_type"])
# 该基因的数据文件划分方式
print ("data_file_division: ", gb_seq.annotations["data_file_division"])
# 基因发布时间
print ("date: ", gb_seq.annotations["date"])
# 该基因的更新版本
print ("sequence_version: ", gb_seq.annotations["sequence_version"])
# 该基因的拓扑结构
print ("topology: ", gb_seq.annotations["topology"])
print('\n')

#04 新建DNA序列,假定此链的编码链,在此基础上转录与翻译序列
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC#导入字符集
# 新建一个DNA序列对象,假定为编码链
dna_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
print(dna_seq)
# 根据上一行的编码链,转录出一个mRNA序列对象
mrna_seq = dna_seq.transcribe()
print(mrna_seq)
# 根据上一行的mrna,翻译出一个蛋白质序列对象
protein_seq = mrna_seq.translate()
print(protein_seq)
print('\n')

#05修改序列文件
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC#导入字符集
#在生物学意义上,序列是不可以随便更改的,也就是不可变的。如果强行修改,那么就会报错TypeError: 'Seq' object does not support item assignment
dna_seq2 = Seq("GAATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
#如果你执意修改也是可以的,但是不建议这么做
dna_seq_mutable = dna_seq2.tomutable()
dna_seq_mutable[0] = "T"
print(dna_seq_mutable)
print('\n')

#06操作序列文件
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC#导入字符集
# 新建一个DNA序列对象
dna_seq3 = Seq("TTTATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
# 序列信息
print ("Sequence: ", dna_seq3)
# 序列长度
print("Length : ", len(dna_seq3))
# 单个核苷酸计数
print("G Counts: ", dna_seq3.count("G"))
# 获取反向序列
print("reverse: ", dna_seq3[::-1])
# 获取互补序列
print ("complement: ", dna_seq3.complement())
#获取反向互补序列,编码链与模板链的关系
print ("Reverse complement: ", dna_seq3.reverse_complement())
print('\n')

#07用 Biopython 将 DNA 翻译为 RNA
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC#导入字符集
# 新建一个DNA序列对象
dna_seq4= Seq("TATATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
# =====转录=====
# 如果序列为编码链,那么直接转换
transcribe_seq1=dna_seq4.transcribe()
print ("rna1: ", transcribe_seq1)
# 如果序列为模板链,就需要先转为编码链(模板链的反向互补链)
transcribe_seq2 = dna_seq4.reverse_complement().transcribe()
print ("rna2: ", transcribe_seq2)
print('\n')

#08用BioPython 将 RNA 翻译为 蛋白质
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC#导入字符集
# 新建一个DNA序列对象
dna_seq4= Seq("TATATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
# =====转录=====
# 如果序列为编码链,那么直接转换
transcribe_seq1=dna_seq4.transcribe()
print ("rna1: ", transcribe_seq1)
# 如果序列为模板链,就需要先转为编码链(模板链的反向互补链)
transcribe_seq2 = dna_seq4.reverse_complement().transcribe()
print ("rna2: ", transcribe_seq2)
print('\n')

# ===============翻译===================
#以transcribe_seq1为例
print ("protein1: ", transcribe_seq1.translate())

# 如果翻译的是线粒体密码子,那么在参数中需要输入,其他参考 https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c or ftp://ftp.ncbi.nlm.nih.gov/entrez/misc/data/gc.prt
print ("protein2: ", transcribe_seq1.translate(table="Vertebrate Mitochondrial"))

# 在现实生物世界中,一般在遇到终止密码子之后的序列不用翻译
print ("protein3: ", transcribe_seq1.translate(table="Vertebrate Mitochondrial", to_stop=True))

# '''如果DNA序列为编码序列,可以直接翻译,DNA序列不是3的倍数时,报错——BiopythonWarning: Partial codon, len(sequence) not a multiple of three. Explicitly trim the sequence or add trailing N before translation. This may become an error in future.'''
print ("protein4: ", dna_seq4.translate())
print('\n')


# 在细菌世界中,在细菌遗传密码中 GTG 是个有效的起始密码子,注意第一个密码子(正常情况下 GTG编码缬氨酸, 但是如果作为起始密码子,则翻译成甲硫氨酸)
bacterial_dna = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCATAA")
print  ("protein5: ", bacterial_dna.translate(table="Bacterial", to_stop=True))#缬氨酸
print  ("protein6: ", bacterial_dna.translate(table="Bacterial", cds=True))#甲硫氨酸
print('\n')

#09DNA序列的探索性分析
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC#导入字符集
# 新建一个DNA序列对象
dna_seq5= Seq("GTATATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
# =====寻找TATA框=====
# TATA框约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一
print("TA Counts: ", dna_seq5.count("TA"))

# =====GC含量=====
# (A+T)/(G+C)之比随DNA的种类不同而异。GC含量愈高,DNA的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行DNA的分离或测定。
print ("GC Content", format(100 * float(dna_seq5.count("G") + dna_seq5.count("C")) / len(dna_seq5),'.2f'))#保留小数点后2位

#法2定义与调用函数
def cg_content(seq):
    total = len(seq)
    gcCount = seq.count('G') + seq.count('C')
    gcContent = format(float(gcCount / total * 100), '.6f')#保留小数点后六位
    return gcContent
#调用04_2的函数
seq=dna_seq5
cg_content_result=cg_content(seq)
print("GC Content:",cg_content_result)
print('\n')

# =====得到promoter序列=====
# 在寻找基因的promoter时(一般promoter的位点不确定),但是可以通过将起始位点左右2kb基因视为promoter
# 这里训练切取,将切取设起始位点为前10bp
print("Promoter seq: ",dna_seq5[:10])#索引为0-9,长度为10

你可能感兴趣的:(python与生信)