要解决的问题:
输出n个 ['A','T','C','G'] 所有的排列组合。
比如n=2 时,输出为 AA,AT,AC,AG,TA,TT,TC,TG,………………
n=3时,输出为 AAA,AAT,AAC,AAG,ATA,ATT,ATC,ATG,……………………
解法1 :传统的map reduce函数
map(func,seq1[,seq2...]):将函数func作用于给定序列的每个元素,并用一个列表来提供返回值;如果func为None,func表现为身份函数,返回一个含有每个序列中元素集合的n个元组的列表。
reduce(func,seq[,init]):func为二元函数,将func作用于seq序列的元素,每次携带一对(先前的结果以及下一个序列的元素),连续的将现有的结果和下一个值作用在获得的随后的结果上,最后减少我们的序列为一个单一的返回值:如果初始值init给定,第一个比较会是init和第一个序列元素而不是序列的头两个元素。
filter(bool_func,seq):此函数的功能相当于过滤器。调用一个布尔函数bool_func来迭代遍历每个seq中的元素;返回一个使bool_seq返回值为true的元素的序列。
用map reduce解此题:
def sequence(n):
base=['A','T','C','G']
print reduce(lambda x,y:[(a+b) for a in x for b in y],map(lambda x:[x]*n,[base])[0])
print sequence(4)
这是发帖人自己的一个实现
[(a+b) for a in x for b in y] 产生一个笛卡尔积
map(lambda x:[x]*n,[base])[0] 其实等价于 [base]*4,写法太费解
reduce源码:
def reduce(bin_func,seq,initial=None):
lseq = list(seq)
if initial is None:
res = lseq.pop(0)
else:
res = initial
for eachItem in lseq:
res = bin_func(res,eachItem)
return res
解法2 :itertools组合函数
import itertools
# python 3 or use __future__
print([''.join(x) for x in itertools.product('ATCG', repeat=4)]
product(A, B) 等价于 ((x,y) for x in A for y in B).
product(A, repeat=4) 等价于 product(A, A, A, A).