参考后缀数组
基数排序
后缀数组的实现用到了基数排序,简单介绍一下基数排序的内容。 基数排序是桶排序的一种扩展,是一种多关键字的排序方法。若记录按照多个关键字排序,则依次按照这些关键字进行排序。 例如字符串的排序,字符串比较大小的方法如下
从第0个位置开始比较。如果相同,继续往后比; 如果不同,则当前位置字符ASCII码大的对应字符串更大。 如果仍无法比较大小,则长度长的字符串更大,否则两者相等。 例如: ABC>AACD ABC>AB ABC=ABC
关于基数排序的知识可以参考我的这篇博客【算法与数据结构】——基数排序
后缀数组
1.后缀,指从某个位置开始到字符串末尾的一个特殊字串。字符串s从第i个字符开始的后缀被表示为Suffix(i),也可称之为下标为i的后缀。 2.后缀数组,将所有后缀都从小到大排序后,将排好序的后缀的下标i放入数组中,该数组就叫做后缀数组。 3.排名数组,排名数组指下标为i的后缀排序后的名次,
后缀数组的构建
构建后缀数组的方法主要有两种,DC3算法和倍增算法。DC3算法的时间复杂度为O(n),倍增算法时间复杂度为O(nlogn)。一般n>1e6时,DC3算法比倍增算法运行速度快,但是DC3算法的常数和代码量较大,因此倍增算法比较常用。
采用倍增算法
代码如下,关于代码的分析参考一开始给出的博客即可。
#include<bits/stdc++.h>
using namespace std;
const int maxn = 1000010;
int n;
char s[maxn];
int sa[maxn],rak[maxn],height[maxn];
int p[maxn],tmp[maxn],cnt[maxn];
bool equ(int x,int y,int l){
return rak[x] == rak[y] && rak[x + l] == rak[y + l];
}
void suffix(){
for(int i = 1;i <= n;++i){
rak[i] = s[i];
sa[i] = i;
}
for(int l = 0 , pos = 0 , sig = 255;pos < n;sig = pos){
pos = 0;
for(int i = n - l + 1;i <= n;++i)
p[++pos] = i;
for(int i = 1;i <= n;++i)
if(sa[i] > l) p[ ++pos ] = sa[i] - l;
for(int i = 0;i <= sig;i++)
{
cnt[i]=0;
}
for(int i = 1;i <= n;++i)
++cnt[rak[i]];
for(int i = 1;i <= sig;++i)
cnt[i] += cnt[i - 1];
for(int i = n;i;--i)
sa[cnt[rak[p[i]]] -- ] = p[i];
pos = 0;
for(int i = 1;i <= n;++i)
tmp[sa[i]] = equ(sa[i] , sa[i - 1] , l)?pos:++pos;
for(int i = 1;i <= n;++i)
rak[i] = tmp[i];
l = !l? 1 : l << 1;
}
return;
}
void calheight()
{
int k = 0;
for(int i = 1;i <= n;i++)
{
if(k) k--;
int j = sa[rak[i]-1];
while(s[i+k]==s[j+k])
{
k++;
}
height[rak[i]]=k;
}
}
int main(){
scanf("%s",s+1);
n = strlen(s+1);
suffix();
for(int i = 1;i <= n;++i)
{
printf("%d ",sa[i]);
}
return 0;
}
LCP 最长公共前缀
height数组,height[i]表示suffix(sa[i])和suffix(sa[i-1])的最大公共前缀长度, 关于height数组求解过程的详细讲解可以参考后缀数组 最详细讲解这篇博客。我在这里只是记录一下代码:
void calheight()
{
int k = 0;
for(int i = 1;i <= n;i++)
{
if(k) k--;
int j = sa[rak[i]-1];
while(s[i+k]==s[j+k])
{
k++;
}
height[rak[i]]=k;
}
}
|