Brute-Force算法
- 匹配失败,需要回退,平均时间复杂度O(mn)
- 最好时间复杂度O(m+n),每次匹配失败都在第一个字符就失败的情况下。
int BruteForce(char S[],char T[])
{
int i=1,j=1;
while(i<=S[0]&&j<=T[0])
{
if(S[i]==T[j])
{
i++;
j++;
}
else
{
i=i-j+2;
j=1;
}
}
if(j>T[0])
return (i-T[0]);
else
return -1;
}
}
KMP算法
(字符串存储规则:0号位置放长度,从1号开始才放字符)
- 基本思路:主串指针永远不回退,模式串每次可以整体后移多位,使得原本最大公共后缀的位置,由原本最大公共前缀来代替。具体每次后移多少,只与模式串本身有关。因此可以提前计算好next数组,根据当前主串的坏字符,就能立刻知道模式串后移多少位了
- 匹配失败时,子串后移位数: 当前匹配上的长度-前后最长公共子串长度,就是后移位数,但是不需要我们考虑,因为模式串指针j前移相当于做了这件事。
- 匹配失败时,子串指针j的回退位置:对于next数组,next[1]永远为0, next[2]永远为1。对于第j位字符(匹配失败的坏字符)前 共j-1位字符串中,前后最大公共子串长度+1,(为什么要+1,因为原来尾部的公共子串和头部的是一样的,不需要再次匹配,所以j回退到头部的公共子串后面一个位置开始下一轮匹配)
- 公共前后缀短,是好事,因为模式串可以后移非常多位置
- 需要找到前后缀最长的匹配,如果不是最长匹配,会导致模式串往后移动过多,错过正确匹配
计算next数组
void get_next(char T[],int next[])
{
int i=1;
int j=0;
next[1]=0;
while(i<T[0])
{
if(j==0||T[i]==T[j])
{
i++;
j++;
next[i]=j;
}
else
j=next[j];
}
}
KMP主体
int KMP(char S[],char T[],int next[],int pos)
{
int i=pos;
int j=1;
while(i<=S[0]&&j<=T[0])
{
if(j==0||S[i]==T[j])
{
i++;
j++;
}
else
{
j=next[j];
}
}
if(j>T[0])
return i-T[0];
else
return -1;
}
完整代码
#include<bits/stdc++.h>
using namespace std;
int BruteForce(char S[],char T[])
{
int i=1,j=1;
while(i<=S[0]&&j<=T[0])
{
if(S[i]==T[j])
{
i++;
j++;
}
else
{
i=i-j+2;
j=1;
}
}
if(j>T[0])
return (i-T[0]);
else
return -1;
}
void get_next(char T[],int next[])
{
int i=1;
int j=0;
next[1]=0;
while(i<T[0])
{
if(j==0||T[i]==T[j])
{
i++;
j++;
next[i]=j;
}
else
j=next[j];
}
}
int KMP(char S[],char T[],int next[],int pos)
{
int i=pos;
int j=1;
while(i<=S[0]&&j<=T[0])
{
if(j==0||S[i]==T[j])
{
i++;
j++;
}
else
{
j=next[j];
}
}
if(j>T[0])
return i-T[0];
else
return -1;
}
int main()
{
char S[256];
char T[10];
int next[10]= {0};
int pos1,pos2;
S[0]=strlen("abcabaaabaabcacdf");
strcpy(S+1,"abcabaaabaabcacdf");
T[0]=strlen("abaabcac");
strcpy(T+1,"abaabcac");
pos1=BruteForce(S,T);
cout<<pos1<<endl;
get_next(T,next);
pos2=KMP(S,T,next,1);
cout<<pos2<<endl;
for(int i=1; i<=8; i++)
cout<<next[i]<<" ";
return 0;
}
|