算法(三)列举所有k-mer的组合

原创:hxj7

关键词:k-mer; recursive; trick;

什么是k-mer?
比如,“ATGC”的所有1-mer是:’A’, ‘T’, ‘G’, ‘C’。共4^1=4种组合。
而“ATGC”的所有2-mer是
“AA”, “AT”, “AG”, “AC”
“TA”, “TT”, “TG”,“TC”
“GA”, “GT”, “GG”,“GC”
“CA”, “CT”, “CG”,“CC”
共4^2=16种组合。

那么如何打印出所有的k-mer组合呢?如果是2-mer,我们可以用两个for循环来列出所有组合,如果是3-mer,可以用三个for循环。但是如果是10-mer呢?岂不是要10个for循环?那代码也太难看了。况且当k未知时,你都不知道要写几个for循环!

今天我们介绍两种来自Biostar论坛中网友给出的方法,我们可以学习参考一下:

第一种:递归方法
递归(recursive)方法作为一种常规算法,自然是会想到的,简化后的代码如下: 算法(三)列举所有k-mer的组合_第1张图片

第二种方法:trick~
第二种方法很有技巧性,十足的trick。简化后的代码如下:
算法(三)列举所有k-mer的组合_第2张图片
该方法由lh3给出,简洁优美。其关键在于:经过k次“y>>2以及y&3”的运算后会生成k个介于[0, 3]的值,如果把这些值当做一个序列,当y不同时,生成的序列是不可能完全一样的。从而会生成不同的k-mer。

细细研读这段代码后,可以发现这种方法只适用于字符串长度为2的指数的情况。比如”AB”(长度为2), “ABCD”(长度为4)或”ABCDEFGH”(长度为8)等情形,而像”ABC”这种就不适用了。从普适性的角度讲,递归方法更胜一筹,因为它适用于任何长度的字符串。

最后
我们再给出列举“ABCDEFGH”的所有k-mer组合的代码:
算法(三)列举所有k-mer的组合_第3张图片

如果任何问题欢迎交流!

(公众号:生信了)
算法(三)列举所有k-mer的组合_第4张图片

你可能感兴趣的:(#,序列算法)