Biopython学习笔记(二)序列的分析

在学习Python:最开始的开始(入门教程+软件安装)文章里我提到过一本针对python小白入门的书,看完那本书再看Biopython这一章的内容会非常容易理解。

(1)Alphabet 对象

听起来听奇怪的,也猜不出是什么意思。说明书表达的内容也很专业,但是根据我的理解,Biopython可以用Alphabet对象来对你输入的序列进行类型的定义和判断。这是什么意思呢?看下面的例子:

>>> from Bio.Seq import Seq
>>> my_seq = Seq("AGTACACTGGT")
>>> my_seq
Seq(’AGTACACTGGT’)
>>> my_seq.alphabet
Alphabet()

上面你给my_seq赋值,是一串序列。然后你用.alphabet来查看你这串序列是DNA、RNA还是protein,但是返回的是Alphabet(),并没有任何说明。说明你在赋值的时候并没有说明这串序列是什么。但是如果你这样做:

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_seq = Seq("AGTACACTGGT", IUPAC.unambiguous_dna)
>>> my_seq
Seq(’AGTACACTGGT’, IUPACUnambiguousDNA())
>>> my_seq.alphabet
IUPACUnambiguousDNA()

现在比较一下这段代码和上一段的区别。区别就是你在赋值的时候,后面说明了这段代码是DNA(IUPAC.unambiguous_dna)。所以当你用.alphabet来查看序列类型的时候,返回的值是IUPACUnambiguousDNA()。

再比如说:

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_prot = Seq("AGTACACTGGT", IUPAC.protein)
>>> my_prot
Seq(’AGTACACTGGT’, IUPACProtein())
>>> my_prot.alphabet
IUPACProtein()

这段代码应该很好理解,你指定了输入的序列是蛋白序列,所以返回的值是IUPACProtein()。

(2)序列的索引

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
#将一串序列定义
>>> my_seq = Seq("GATCG", IUPAC.unambiguous_dna)
#下面这个代码请参考《编程小白的第一本 Python 入门书》里的第六章进行理解
>>> for index,letter in enumerate(my_seq):
...     print("%i %s" % (index,letter)) #这里%i是指索引编码,%s指相对应的字符
... 
0 G
1 A
2 T
3 C
4 G
>>> print(len(my_seq)) #输出序列的字符长度
5

简单的说,上面代码中enumerate() 函数:用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。上面的代码就将你输入的序列里每一个字符的编号标了出来。

你还可以让它输出指定位置的字符,需要记住的是,python里第一位的位置是0,不是1:

>>> print(my_seq[0]) #first letter
G
>>> print(my_seq[2]) #third letter
T
>>> print(my_seq[-1]) #last letter
G

上面的[-1]很难理解是不是,看下图就明白了:

如果你想知道一段序列里有多少个"G"怎么办?看下面的代码:

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC", IUPAC.unambiguous_dna)
>>> len(my_seq)
32
>>> my_seq.count("G") #用count()来计算有多少个指定的字符
9
>>> 100 * float(my_seq.count("G") + my_seq.count("C")) / len(my_seq) #你还可以看一下你的序列里的GC含量
46.875

当然这里有一个更简单的方法求GC含量:

>>> from Bio.SeqUtils import GC
>>> GC(my_seq)
46.875

(3)如何获取部分序列

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC", IUPAC.unambiguous_dna)
>>> my_seq[4:12] #这里取索引位置为4的字符,到第12位,但不包含第12位。
Seq(’GATGGGCC’, IUPACUnambiguousDNA())

关于方括号里如何取第几位到第几位,可以参照《编程小白的第一本 Python 入门书》第36页内容。

把序列从头到尾颠倒过来:

>>> my_seq[::-1]
Seq(’CGCTAAAAGCTAGGATATATCCGGGTAGCTAG’, IUPACUnambiguousDNA())

(4)将你输入的序列变成fasta格式

>>> str(my_seq) #先把序列变成字符串
’GATCGATGGGCCTATATAGGATCGAAAATCGC’
>>> fasta_format_string = ">Name\n%s\n" % my_seq #这里的\n是换行符的意思,%s是“把后面的my_seq里的值放到这个地方”的意思
>>> print(fasta_format_string)
>Name
GATCGATGGGCCTATATAGGATCGAAAATCGC

(5)序列的合并

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_dna
#比如你有多个序列需要合并
>>> list_of_seqs = [Seq("ACGT", generic_dna), Seq("AACC", generic_dna), Seq("GGTT", generic_dna)]
>>> concatenated = Seq("", generic_dna)
>>> for s in list_of_seqs:
... concatenated += s
...
>>> concatenated
Seq(’ACGTAACCGGTT’, DNAAlphabet())

还有个更简便的方法:

>>> sum(list_of_seqs, Seq("", generic_dna))
Seq(’ACGTAACCGGTT’, DNAAlphabet())

(6)改变序列的大小写

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_dna
>>> dna_seq = Seq("acgtACGT", generic_dna)
>>> dna_seq
Seq('acgtACGT', DNAAlphabet())
>>> dna_seq.upper()
Seq('ACGTACGT', DNAAlphabet())
>>> dna_seq.lower()
Seq('acgtacgt', DNAAlphabet())

需要注意的是IUPAC alphabets只能是大写,所以上面说明里用的是generic_dna,而不是IUPAC。所以给你一段代码自己体会:

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> dna_seq = Seq("ACGT", IUPAC.unambiguous_dna)
>>> dna_seq
Seq(’ACGT’, IUPACUnambiguousDNA())
>>> dna_seq.lower()
Seq(’acgt’, DNAAlphabet())

(7)(反向)互补序列

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC", IUPAC.unambiguous_dna)
>>> my_seq
Seq(’GATCGATGGGCCTATATAGGATCGAAAATCGC’, IUPACUnambiguousDNA())
>>> my_seq.complement()
Seq(’CTAGCTACCCGGATATATCCTAGCTTTTAGCG’, IUPACUnambiguousDNA())
>>> my_seq.reverse_complement()
Seq(’GCGATTTTCGATCCTATATAGGCCCATCGATC’, IUPACUnambiguousDNA())

(8)转录

在讲这一块之前,先来复习一下关于转录的知识吧:

生物过程里的转录是根据模板链进行的。反向互补形成mRNA序列。但是在python和Biopython里,直接拿DNA编码连来转成mRNA链,这样只需要把DNA编码链里的T换成U就行了。

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> coding_dna = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG", IUPAC.unambiguous_dna)
>>> coding_dna
Seq(’ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG’, IUPACUnambiguousDNA())
>>> messenger_rna = coding_dna.transcribe()
>>> messenger_rna
Seq(’AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG’, IUPACUnambiguousRNA())

如果你想按照生物学的转录来,是什么代码呢?

>>> template_dna.reverse_complement().transcribe()
Seq(’AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG’, IUPACUnambiguousRNA())

再将mRNA转换成DNA编码链:

>>> messenger_rna.back_transcribe()
Seq(’ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG’, IUPACUnambiguousDNA())

(9)翻译

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> coding_dna = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG", IUPAC.unambiguous_dna)
>>> coding_dna
Seq(’ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG’, IUPACUnambiguousDNA())
#下面是翻译成氨基酸编码,按照脊椎动物线粒体的表格来翻译
>>> coding_dna.translate(table="Vertebrate Mitochondrial")
Seq(’MAIVMGRWKGAR*’, HasStopCodon(IUPACProtein(), ’*’))
#由于脊椎动物线粒体的表格在https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi网站里排第二,你也可以直接写成table=2
>>> coding_dna.translate(table=2)
Seq(’MAIVMGRWKGAR*’, HasStopCodon(IUPACProtein(), ’*’))
#如果你不想让它显示终止密码子,就是去掉星号,可以这样:
>>> coding_dna.translate(table=2, to_stop=True)
Seq(’MAIVMGRWKGAR’, IUPACProtein())

再看下面这里例子,这是一段真实的CDS序列:

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_dna
>>> gene = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCA" + \
... "GCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGAT" + \
... "AATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACAT" + \
... "TATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCAT" + \
... "AAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA",
... generic_dna)
#GTG在细菌里既是起始密码子,又是正常的密码子,所以如果你不指定它是起始密码子的话,会变成这样:
>>> gene.translate(table="Bacterial", to_stop=True)
Seq(’VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HHR’,ExtendedIUPACProtein())
#如果你指定开头的GTG是起始密码子,那么翻译出来的序列就是:
>>> gene.translate(table="Bacterial", cds=True)
Seq(’MKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HHR’,ExtendedIUPACProtein())

(10)序列之间的比较

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> seq1 = Seq("ACGT", IUPAC.unambiguous_dna)
>>> seq2 = Seq("ACGT", IUPAC.ambiguous_dna)
>>> seq1 == seq2
True

然而如果你想把DNA和protein做比较的话,会有如下的显示:

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import generic_dna, generic_protein
>>> dna_seq = Seq("ACGT", generic_dna)
>>> prot_seq = Seq("ACGT", generic_protein)
>>> dna_seq == prot_seq
BiopythonWarning: Incompatible alphabets DNAAlphabet() and ProteinAlphabet()
True

(11)编辑序列

假如你想把一段序列里的某一个碱基换一下,应该怎么做呢?

>>> from Bio.Seq import Seq
>>> from Bio.Alphabet import IUPAC
>>> my_seq = Seq("GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA", IUPAC.unambiguous_dna)
>>> my_seq[5] = "G"
Traceback (most recent call last):
...
TypeError: ’Seq’ object does not support item assignment

直接换是会报错的。你应该这样:

>>> from Bio.Seq import MutableSeq
>>> from Bio.Alphabet import IUPAC
>>> mutable_seq = MutableSeq("GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA", IUPAC.unambiguous_dna)
#把索引位置为5的碱基换成C
>>> mutable_seq[5] = "C"
>>> mutable_seq
MutableSeq(’GCCATCGTAATGGGCCGCTGAAAGGGTGCCCGA’, IUPACUnambiguousDNA())
#再把上面换掉的序列里第一个T去掉
>>> mutable_seq.remove("T")
>>> mutable_seq
MutableSeq(’GCCACGTAATGGGCCGCTGAAAGGGTGCCCGA’, IUPACUnambiguousDNA())

你可能感兴趣的:(Biopython学习笔记(二)序列的分析)