A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment

今天要写的是《A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment》。该文将多重序列比对问题建模为多目标优化问题,并提出了H4MSA算法(基于文化基因算法)来解决。


  • 何为多重序列比对(Multiple Sequence Alignment,MSA)问题?

    多重序列比对是指对三个以上的生物学序列比对,如:蛋白质序列、DNA序列、RNA序列。一般来说,输入时一组假定拥有眼花关系的序列。其主要目的是反映序列间的生物学关系。

    • 序列集合: S = { s 1 , s 2 , ⋯   , s k } S = \{s_1,s_2,\cdots,s_k\} S={s1,s2,,sk},序列 s i s_i si的长度为 ∣ s i ∣ |s_i| si
    • 字母表: Σ \Sigma Σ
      例如:核苷酸字母表为 Σ n u c l e o t i d e s = { A , C , G , T } \Sigma_{nucleotides} = \{A,C,G,T\} Σnucleotides={A,C,G,T}
      氨基酸字母表为
      Σ a m i n o a c i d s = { A , C , D , E , F , G , H , I , K , L , M , N , P , Q , R , S , T , V , W , Y } \Sigma_{aminoacids} = \{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y\} Σaminoacids={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

    MSA问题为NP完全问题。假设待比对的序列有 k k k条,其中最长的序列的长度为 L L L,则MSA问题的计算复杂度为 O ( k 2 k L k ) O(k2^kL^k) O(k2kLk)

    为了求解的方便,需要对序列做等长处理,即在序列中加入额外的间隔符( − - )。MSA要做的无非就是通过增加’ − - '的数量以及改变其位置得到一个序列比对结果,充分挖掘序列间的关系。
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第1张图片
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第2张图片
    于是序列集合和字母表变为:

    序列集合: S ′ = { s 1 ′ , s 2 ′ , ⋯   , s k ′ } S' = \{s'_1,s'_2,\cdots,s'_k\} S={s1,s2,,sk},每个的序列长度 ∣ s ′ ∣ = ∣ s 1 ′ ∣ = ⋯ = ∣ s k ′ ∣ |s'| = |s'_1| =\cdots=|s'_k| s=s1==sk
    字母表: Σ ′ = Σ ∪ { − } \Sigma' = \Sigma \cup\{-\} Σ=Σ{}

    根据实验经验,有 maxLength ⁡ = ⌈ 3 2 ∗ max ⁡ ( ∣ s 1 ∣ , ∣ s 2 ∣ , … , ∣ s k ∣ ) ⌉ \operatorname{maxLength}=\left\lceil\frac{3}{2} * \max \left(\left|s_{1}\right|,\left|s_{2}\right|, \ldots,\left|s_{k}\right|\right)\right\rceil maxLength=23max(s1,s2,,sk)。虽然我们可以通过增加’ − - '得到无限长的序列,但这没有意义。我们通过基于种群的随机搜索算法来解决这个问题,那么每个个体就是一个 k × ∣ s ′ ∣ k\times|s'| k×s的矩阵,对于不同的个体 k k k值是相同的, ∣ s ′ ∣ |s'| s却不一定相同的,但 ∣ s ′ ∣ < = maxLength ⁡ |s'|<= \operatorname{maxLength} s<=maxLength

  • 编码方式

    考虑一个个体(一种可能的配对)
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第3张图片
    传统的编码方式采用二进制编码,其中0代表 Σ \Sigma Σ里的字母,1代表’ − - '符号,下为上面个体所对应的编码。显然这种编码方式所需的存储空间与序列长度成正相关。
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第4张图片
    为了降低编码所需的存储空间, 本文采用了一种新的编码方式
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第5张图片
    其中 g i g_i gi表示第 i i i条序列 g a p gap gap的数目; ip i , j \text{ip}_{i,j} ipi,j表示第 i i i条序列第 j j j g a p gap gap的起始位置; sp i , j \text{sp}_{i,j} spi,j表示第 i i i条序列第 j j j g a p gap gap的空格数(the number of spaces);为将 ip i , j \text{ip}_{i,j} ipi,j sp i , j \text{sp}_{i,j} spi,j区别开来, sp i , j \text{sp}_{i,j} spi,j使用负数表示。所谓的gap和spaces如图所示
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第6张图片

    因此上述个体采用本文的新编码方式得到的编码结果为
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第7张图片
    其中第四条序列的第三个gap中没有space,因此 sp i , j = 0 \text{sp}_{i,j}=0 spi,j=0,在编码时省略不写。

  • 目标函数

    前面说到MAP就是在通过增加’ − - ‘的数目和移动’ − - '的位置来完成比对,其对应的也就是gaps的数目,初始位置以及每个gap中的spaces数。那么如何判定是否获得了一个好的配对方案呢?这就靠目标函数来衡量了,每种配对方式都会对应一个函数值。在本文中采用了两个目标函数,且两个目标函数的值均为越大越好。下面将分别介绍两个目标函数

  1. The weighted sum-of-pair with affine gap penalties f 1 f_1 f1

    f 1 : W S P ( S ′ ) = ∑ l = 1 A L S P ( l ) − ∑ i = 1 k AGP ⁡ ( s i ′ ) f_1 : \mathrm{WSP}\left(S^{\prime}\right)=\sum_{l=1}^{\mathrm{AL}} \mathrm{SP}(l)-\sum_{i=1}^{k} \operatorname{AGP}\left(s_{i}^{\prime}\right) f1:WSP(S)=l=1ALSP(l)i=1kAGP(si)
    这个函数分为两个部分:
    1) The weighted sum-of -pair : S P ( l ) = ∑ i = 1 k − 1 ∑ j = i k W i , j × δ ( s i , l ′ , s j , l ′ ) \mathrm{SP}(l)=\sum_{i=1}^{k-1} \sum_{j=i}^{k} W_{i, j} \times \delta\left(s_{i, l}^{\prime}, s_{j, l}^{\prime}\right) SP(l)=i=1k1j=ikWi,j×δ(si,l,sj,l)
    δ \delta δ为取代矩阵,生物学概念。
    W i , j = 1 − LD ⁡ ( s i , s j ) max ⁡ ( ∣ s i ∣ , ∣ s j ∣ ) W_{i, j}=1-\frac{\operatorname{LD}\left(s_{i}, s_{j}\right)}{\max \left(\left|s_{i}\right|,\left|s_{j}\right|\right)} Wi,j=1max(si,sj)LD(si,sj)为两序列之间的权重, LD ⁡ ( s i , s j ) \operatorname{LD}\left(s_{i}, s_{j}\right) LD(si,sj)表示Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
    2) The affine gap penalties : AGP ⁡ ( s i ′ ) = ( g o × #  gaps  ) + ( g e × #  spaces  ) \operatorname{AGP}\left(s_{i}^{\prime}\right)=\left(g_{o} \times \# \text { gaps }\right)+\left(g_{e} \times \# \text { spaces }\right) AGP(si)=(go×# gaps )+(ge×# spaces )
    g o g_o go表示增加一个gap的权重,本文取6; g e g_e ge表示增加一个space的权重,本文取0.85; # gaps \#\text{gaps} #gaps # spaces \#\text{spaces} #spaces分别表示该序列中的gaps数和spaces数。

  2. The number of totally conserved columns score f 2 f_2 f2

    之前说过,一个配对方式(一个个体)就是一个矩阵,这个目标函数的就是在计算这个矩阵中只包含一种字符(’ − - '不算)的列的数目,也就是说完全比对上的列数。
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第8张图片
    这个个体中标 ∗ * 的列完全比对上了,一共有8列,因此 f 2 = 8 f_2=8 f2=8

  • 变异过程
    变异过程(mutation process)主要包含四个步骤:1. Move a Block; 2. Merge Two Groups; 3. Divide a Group; 4. Compact Alignment.
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第9张图片
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第10张图片
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第11张图片
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第12张图片
    除此之外,还采用了Kalign2算法做局部搜索(论文中没有描述Kalign2算法,详见参考文献[1])
    局部搜索的步骤如下:
    1)从序列中任选一个区域(总长的5%-25%)
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第13张图片
    2)将选择部分中的所有’ − - '符号删掉
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第14张图片
    3)使用Kalign2重新比对选中部分
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第15张图片
    4)将生成的比对结果放回原序列中
    A Hybrid Multiobjective Memetic Metaheuristic for Multiple Sequence Alignment_第16张图片

PS : 文化基因算法算法在此就不叙述了。

参考文献
[1] T. Lassmann, O. Frings, and E. L. L. Sonnhammer, “Kalign2: High-performance multiple alignment of protein and nucleotide sequences allowing external features,” Nucl. Acids Res., vol. 37, no. 3, pp. 858–865,2009.

此仅为本人阅读论文时的笔记,若有理解有误的地方还请批评指正。

你可能感兴趣的:(EA)