《后缀数组-许智磊》论文的学习笔记

仔细看过了《后缀数组-许智磊》论文

在实现其中的算法时,发现一处疏漏:
计算LCP的方法:
原文算法是这样描述的:
    若 Rank[i]=1,则h[i]=0。字符比较次数为0。
    若 i=1 或者h[i-1]≤1,则直接将Suffix(i)和Suffix(Rank[i]-1)从第一个字符开始依次比较直到有字符不相同,由此计算出h[i]。字符比较次数为h[i]+1,不超过h[i]-h[i-1]+2。
    否则,说明i>1,Rank[i]>1,h[i-1]>1,根据性质3,Suffix(i)和Suffix(Rank[i]-1)至少有前h[i-1]-1 个字符是相同的,于是字符比较可以从h[i-1]开始,直到某个字符不相同,由此计算出h[i]。字符比较次数为h[i]-h[i-1]+2。

这里的应该是:Suffix(Rank(i))和Suffix(Rank[i]-1)来比较。

改后算法描述为:
    若 Rank[i]=1,则h[i]=0。字符比较次数为0。
    若 i=1 或者h[i-1]≤1,则直接将Suffix(Rank(i))和Suffix(Rank[i]-1)从第一个字符开始依次比较直到有字符不相同,由此计算出h[i]。字符比较次数为h[i]+1,不超过h[i]-h[i-1]+2。
    否则,说明i>1,Rank[i]>1,h[i-1]>1,根据性质3,Suffix(Rank(i))和Suffix(Rank[i]-1)至少有前h[i-1]-1 个字符是相同的,于是字符比较可以从h[i-1]开始,直到某个字符不相同,由此计算出h[i]。字符比较次数为h[i]-h[i-1]+2。

 

自己实现了一个扩展版的SuffixArry,即以单词为单位进行匹配,而不是单个字符的形式

源码到此处下载(不要分,免费下):

http://download.csdn.net/source/2045119

 

 

 

你可能感兴趣的:(算法,扩展)