int sa[MAXN] , wa[MAXN] ,wb[MAXN] , wv[MAXN] , wss[MAXN]; int cmp ( int *r , int a , int b , int len ) { return r[a] == r[b]&&r[a+len]==r[b+len]; } void da ( int *r , int *sa , int n , int m ) { int i,j,p , *x = wa , *y = wb , *t ; //首先利用计数排序对长度为1的字符串进行排序,利用字符密集且非负而且真值较小的性质,可以 //使统计排序有很高的效率 //x数组相当于保存的是当前长度子串的rank值,因为在后面的计算中并没用利用它的值,只是利 //他们的大小关系进行比较 for( i = 0 ; i < m ; i++ ) wss[i] = 0; for( i = 0 ; i < n ; i++ ) wss[x[i] = r[i]]++; for( i = 0 ; i < m ; i++ ) wss[i] += wss[i-1]; for( i = n-1; i >= 0 ; i-- ) sa[--wss[x[i]]] = i; //因为要每一次排序当前长度的字符串,都要借助上一次长度的结果,将两个子串的rank分别作为 //第一关键字和第二关键字排序,而第二关键字的排序可以由上一次推算出的sa值直接算出 //两个关键字分别代表第一个子串在上一次排序后的rank值,要补充在后面的字符串的rank值 for( j = 1,p = 1; p < n; j *=2 , m = p ) { for( p = 0 , i = n-j; i < n; i++ ) y[p++]= i; //因为剩余长度不够,无法构成给定长度的字符串 for( i = 0 ; i < n ; i++ ) if( sa[i] >= j ) y[p++] = sa[i]-j; //数组y保存的是第二关键字的排序结果,因为sa和rank是互逆运算,所以,sa存的内容就 //是rank的下标,同样y的值就是rank的下标,所以直接利用sa值就可以得到rank的排序结果,记录拼接后的字符串的首位置 for( i = 0 ; i < n ; i++ ) wv[i] = x[y[i]]; //已经根据第二关键字排序,所以再排序,第一关键字相等的,第二关键字小的自然在前面, //能够保证计数排序时的正确性 for( i = 0 ; i < m ; i++ ) wss[i] = 0; for( i = 0 ; i < n ; i++ ) wss[wv[i]]++; for( i = 1 ; i < m ; i++ ) wss[i] += wss[i-1]; for( i = n-1 ; i >= 0 ; i-- ) sa[--wss[wv[i]]] = y[i]; for( t = x , x = y , y = t , p = 1 , x[sa[0]] = 0, i = 1; i <n ;i++ ) x[sa[i]]= cmp ( y , sa[i-1] , sa[i], j ) ? p-1 : p++; } return; }
后缀数组常用的还有一个height数组,定义height数组存的是排名在i位和第i-1位的后缀的最长公共前缀的长度。
那么我们如何才能快速求取这个数组呢?
取任意i,j,不妨设rank[j]<rank[k],那么以j开头的后缀和以k开头的后缀的最长公共前缀就是Height[rank[j]+1]到height[rank[k]]的最小值,height[i]表示相邻排名的最长公共子串,每次比较相邻公共子串后取最小便能得到所求。
Height数组告诉求取:定义h[i]=height[rank[i]]
那么,h[i]>= h[i-1] -1
证明:设suffix(k)是排在suffix(i-1)的前一名的后缀,那么他们的最长公共前缀为h[i-1].那么以k+1为首位置的后缀前面并且该后缀和以i为首位置的后缀的最长公共前缀是h[i-1]-1,所以原结论得证。
代码的实现:
int rank[MAXN],height[MAXN]; void calheight ( int *r , int *sa , int n ) { int i,j,k = 0; for( i = 1 ; i <= n ; i++ ) rank[sa[i]] = i;//初始化rank数组 for( i = 0 ; i < n ; height[rank[i++]] = k ) for(k?k--:0 , j = sa[rank[i]-1]; r[i+k] == r[j+k];k++ ); //借用了kmp的思想,每次比较前缀最后一位判断是否相等,因为相邻的前缀只可能公共前缀差1 return; }