PHP实现 Manacher 最大回文子串算法

题目:给一个字符串,找出它的最长的回文子序列的长度。
例如,如果给定的序列是“BBABCBCAB”,则输出应该是7,“BABCBAB”是在它的最长回文子序列。

输入:
aaaa
1212asdfdsa1144121
输出:
4
7

这里我们还是将其封装成函数调用

何谓回文序列

回文序列就是正向和反向完全一样的序列,比如 asdfdsaaaaa

接下来我们由浅及深,一步一步来说一下 Manacher 算法,这里我们只说 PHP 的实现

判断回文序列

通过 PHP 很容易实现,只需要判断正向反向是否相同就行了

function huiwen($str) {
    $str2 = implode(array_reverse(str_split($str)), "");

    if ($str == $str2) {
        echo "$str, yes";
    } else {
        echo "$str, no";
    }
}

接下来我们就来讲解最大回文子串如何去求

第一版代码

求回文子串,毫无疑问需要每个字符遍历一遍,分别求出来各个字符的回文长度,然后选出最长的那一个
代码如下:

function palindrome($str) {   
    $n = strlen($str);
    $pos = 0;
    $max = 0;

    for ($i = 0; $i < $n; $i++) { 
        for ($j = 0; ($i - $j >= 0) && ($i + $j < $n); $j++) { 
            if ($str[$i - $j] != $str[$i + $j]) {
                break;
            }
            if ($j > $max) {
                $max = $j;
                $pos = $i;
            }
        }
    }
    var_dump(substr($str, $pos - $max, $max * 2 + 1));
}

可以看到,这个代码是有bug的,因为回文子串可能是奇数长度,也可能是偶数长度,因为我们是以一个字符为中心来求的,所以用这种方法只能求出奇数长度的回文子串,接下来我们来改进一下

第二版改进

因为我们只能求出奇数长度的回文子串,因此我们需要把字符串改进一下

首先通过在每个字符的两边都插入一个特殊的符号,将所有可能的奇数或偶数长度的回文子串都转换成了奇数长度。比如 abba 变成 #a#b#b#a#, aba变成 #a#b#a#,这样我们再来看一下代码:

function palindrome($str) {   
    $pos = 0;
    $max = 0;

    $newStr = "#" . implode(str_split($str), "#") . "#";
    $n = strlen($newStr);

    for ($i = 0; $i < $n; $i++) { 
        for ($j = 0; ($i - $j >= 0) && ($i + $j < $n); $j++) { 
            if ($newStr[$i - $j] != $newStr[$i + $j]) {
                break;
            }
            if ($j > $max) {
                $max = $j;
                $pos = $i;
            }
        }
    }

    $r = substr($newStr, $pos - $max, $max * 2);
    $res = str_replace("#", "", $r);
    var_dump($res);
}

这个样子我们就写好了基本的回文子串算法了,但是在这个算法中,我们用了两层 for 循环,并且需要判断当前字符的位置是否越界,效率较低,接下来我们来看 Manacher 算法

Manacher 算法实现

首先,为了进一步减少编码的复杂度,可以在字符串的开始和结尾加入另一个特殊字符,这样就不用特殊处理越界问题,这里我们在开头和结尾分别加入 @\0,如 abba 变成 @#a#b#b#a#\0

接下来,我们引入一个辅助序列 $p[] 来记录各个位置的回文长度(注意:我们这里记录的回文长度是单向的长度,比如 12321 我们记录的回文长度为 3,实际回文长度是 $p[$i] * 2 - 1
比如字符串 $s[] 与辅助序列 $p[] 的对应关系如下:

  • S # 1 # 2 # 2 # 1 #
  • P 1 2 1 2 5 2 1 2 1

最后,核心代码在于这一句:
$p[$i] = $mx > $i ? min($p[$j], $mx - $i) : 1;
通过这步操作我们可以避免很多不必要的匹配,我们结合下面的代码来理解这句操作
$mx 是最大回文序列最右侧边界的坐标,$i 是当前要计算的位置,$j$i 相对于最大回文序列中间坐标 $pos 的对称点
由于回文序列的性质,回文序列是对称的,也就是说
如果:
$mx > $i
那么
$p[$i] >= $mx > $i ? min($p[$j], $mx - $i) : 1;
可以这么理解:
如果 $mx > $i,这时 当前位置当前最大回文序列 的右半部分里面,根据回文序列的对称性,可以得出,当前位置 $i 的回文长度一定大于等于与之对称 $j 的回文长度,所以说直接从 $j 的回文长度开始计算
但是如果 $mx > $i,这时 当前位置当前最大回文序列 之外,无法判断 $mx 以后字符的对称性,因此从 1 开始

function palindrome($str) {   
    // 最大回文序列中间坐标
    $pos = 0;
    // 最大回文长度
    $max = 0;
    // 回文序列最右边界坐标
    $mx = 0;

    $p = array("0" => 1, "1" => 1);

    $newStr = "@#" . implode(str_split($str), "#") . "#\0";
    $n = strlen($newStr);

    for ($i = 2; $newStr[$i] != "\0"; $i++) {
        // $i 相对于最大回文序列中间坐标 $pos 的对称点
        $j = $pos - $i > 0 ? $pos - $i : 1;
        $p[$i] = $mx > $i ? min($p[$j], $mx - $i) : 1; 
        while ($newStr[$i - $p[$i]] == $newStr[$i + $p[$i]]) {
            $p[$i]++;
        }

        if ($p[$i] > $max) {
            $max = $p[$i];
            $pos = $i;
            $mx = $i + $max;
        }
    }

    $r = substr($newStr, $pos - $max + 1, $max * 2 - 1);
    $res = str_replace(array("#", "@", "\0"), "", $r);
    var_dump($res);
}

Manacher 算法的时间复杂度为O(n),优势在于避免了奇偶数讨论的问题,简化了边界判断,还记录了当前字符串的“回文状态”,利用之前的回文状态来求当前回文状态 ,体现了动态规划的思想

你可能感兴趣的:(PHP,算法,函数,Manacher,回文序列)