在很多时候,我们都需要寻找某个字符串的子字符串,这在统计,内容查找,内容审视上都是很重要的。但是查找子字符串的暴力破解法所需要的时间复杂度难免太多,最坏的情况下其时间复杂度竟高达MN! 为了加快我们的算法的速度,我们会通过控制回退的方式来减少比对的次数,但是这种朴素的方式取得的效果有限 不过这种方法给了我们一个启示,让我们发展出了KMP算法。简而言之,KMP算法就是解析需要查找的子字符并设置出需要回退的步数,毕竟我们能够得知于子字符串匹配中的几个字符的值。这样就能减少回退的次数。
class KMP
{
private:
std::string pat;
const static int r = 256;
int *dfa[r];
public:
KMP(std::string pat)
{
this->pat = pat;
int m = pat.length();
for (int i = 0; i < r; i++)
{
dfa[i] = new int[m];
std::fill(dfa[i], dfa[i] + m, 0);
}
dfa[pat[0]][0] = 1;
for (int x = 0, j = 1; j < m; j++)
{
for (int c = 0; c < r; c++)
{
dfa[c][j] = dfa[c][x];
}
dfa[pat[j]][j] = j + 1;
x = dfa[pat[j]][x];
}
}
int seatch(std::string txt)
{
int i, j, n = txt.length(), m = pat.length();
for (i = 0, j = 0; i < n&&j < m; i++)
{
j = dfa[txt[i]][j];
}
if (j == m)
return i - m;
else
return n;
}
};
运行结果
不过,我个人还是及其讨厌这个算法的,因为它不仅晦涩难懂,而且还需要占用很多额外的内存空间,当然,经过前几期的探索,我们发现每一种问题的解决在开始的时候都是很糟糕的。后面我们会学习几种更加优秀的算法
|