iteye_13411

字符串匹配算法总结

转自：http://blog.csdn.net/zdl1016/archive/2009/10/11/4654061.aspx

我想说一句“我日，我讨厌KMP！”。
KMP虽然经典，但是理解起来极其复杂，好不容易理解好了，便起码来巨麻烦！
老子就是今天图书馆在写了几个小时才勉强写了一个有bug的、效率不高的KMP，特别是计算next数组的部分。

其实，比KMP算法速度快的算法大把大把，而且理解起来更简单，为何非要抓住KMP呢？笔试出现字符串模式匹配时直接上sunday算法，既简单又高效，何乐而不为？
说实话，想到sunday算法的那个人，绝对是发散思维，绝对牛。当我在被KMP折磨的够呛的时候，我就琢磨，有没有别的好算法呢？？琢磨了半天也没想出个所以然来。笨啊，脑子不够发散。

下面贴上一位兄弟写的算法总结，很简单（建议KMP部分就不用看了，看了费脑子）。
参见：http://hi.baidu.com/willamette/blog/item/02bd0b5599c8b4c0b645ae06.html

趁着做Presentation的功夫，顺便做一个总结

字符串匹配：

---willamette

在匹配串中寻找模式串是否出现，注意和最长公共子序列相区别(LCS: Longest Common Substring)

-：Brute Force(BF或蛮力搜索)算法：

这是世界上最简单的算法了。
首先将匹配串和模式串左对齐，然后从左向右一个一个进行比较，如果不成功则模式串向右移动一个单位。

速度最慢。

那么，怎么改进呢？

我们注意到Brute Force算法是每次移动一个单位，一个一个单位移动显然太慢，是不是可以找到一些办法，让每次能够让模式串多移动一些位置呢？

当然是可以的。

我们也注意到，Brute Force是很不intelligent的，每次匹配不成功的时候，前面匹配成功的信息都被当作废物丢弃了，当然，就如现在的变废为宝一样，我们也同样可以将前面匹配成功的信息利用起来，极大地减少计算机的处理时间，节省成本。^_^

注意，蛮力搜索算法虽然速度慢，但其很通用，文章最后会有一些更多的关于蛮力搜索的信息。

-: KMP算法

首先介绍的就是KMP算法。

原始论文：Knuth D.E., Morris J.H., and Pratt V.R., Fast pattern matching in strings, SIAM Journal on Computing, 6(2), 323-350, 1977.

这个算法实在是太有名了，大学上的算法课程除了最笨的Brute Force算法，然后就介绍了KMP算法。也难怪，呵呵。谁让Knuth D.E.这么world famous呢，不仅拿了图灵奖，而且还写出了计算机界的Bible (业内人士一般简称TAOCP).稍稍提一下，有个叫H.A.Simon的家伙，不仅拿了Turing Award，顺手拿了个Nobel Economics Award，做了AI的爸爸，还是Chicago Univ的Politics PhD，可谓全才。

KMP的思想是这样的：

利用不匹配字符的前面那一段字符的最长前后缀来尽可能地跳过最大的距离

比如

模式串ababac 这个时候我们发现在c处不匹配，然后我们看c前面那串字符串的最大相等前后缀，然后再来移动

下面的两个都是模式串，没有写出来匹配串

原始位置 ababac

移动之后 ababac

因为后缀是已经匹配了的，而前缀和后缀是相等的，所以直接把前缀移动到原来后缀处，再从原来的c处，也就是现在的第二个b处进行比较。这就是KMP。

-：Horspool算法

Horspool算法。

当然，有市场就有竞争，字符串匹配这么大一个市场，不可能让BF和KMP全部占了，于是又出现了几个强劲的对手。

第一个登场的是

论文：Horspool R.N., 1980, Practical fast searching in strings, Software - Practice & Experience, 10(6):501-506

Horspool算法的思想很简单的。不过有个创新之处就是模式串是从右向左进行比较的。很好很强大，为后来的算法影响很大。

匹配串：abcbcsdxzcxx

模式串：cbcac

这个时候我们从右向左进行对暗号，c-c，恩对上了，第二个b-a，不对啊，我们应该怎么办？难道就这么放弃么。于是，模式串从不匹配的那个字符开始从右向左寻找匹配串中不匹配的字符b的位置，结果发现居然有，赶快对上赶快对上，别耽误了。

匹配串：abcbcsdxzcxx

模式串： cbcac

然后继续从最右边的字符从右向左进行比较。这时候，我们发现了，d-c不匹配啊，而且模式穿里面没有噢，没办法，只好移动一个模式串长度的单位了。

匹配串：abcbcsdxzcxx

模式串： cbcac

-：Boyer-Moore算法

第二个上来的是Boyer-Moore算法。

是一个很复杂的算法，当然，虽然理论上时间复杂度和KMP差不多，但是实际上却比KMP快数倍，可见实践是检验真理的唯一标准。

原始论文：R.S.Boyer, J.S.Moore, A fast string searching algorithm , Communications of the ACM,20(10):762-772 ,1977

分为两步预处理，第一个是bad-character heuristics，也就是当出现错误匹配的时候，移位，基本上就是做的Horspool那一套。

第二个就是good-suffix heuristics，当出现错误匹配的时候，我还要从不匹配点向左看啊，以前匹配的那段子字符串是不是在模式串本身中还有重复的啊，有重复的话，那么我就直接把重复的那段和匹配串中已经匹配的那一段对齐就是了。再比较

匹配串：abaccbabbazz

模式串：cbadcba

我们看到已经匹配好了cba，但是c-d不匹配，这个时候我们发现既可以采用bad-character heuristics，也可以使用good-suffix heuristics(模式串：cbadcba)，在这种情况下，邪不压正。毅然投奔good。移动得到

匹配串：abaccbabbazz

模式串： cbadcba

可是，我们有时候也发现，已经匹配好的那一部分其实并没有再有重复了的啊。这个时候，我们发现已经匹配好的那串字符串有一部分在开头重新出现了，那么，赶快，对齐吧。

匹配串：abacccbbbazz

模式串：cbadccb

然后得到

匹配串：abacccbbbazz

模式串： cbadccb

当两种Good-Suffix出现的时候，取移动距离最大的那个。
（
对于BM算法，好规则和坏规则，这里讲的不够明确，下面推荐一个讲解非常优秀的文章，可谓图文并茂啊，而且还是个MM写的。
Boyer-Moore 经典单模式匹配算法
http://blog.csdn.net/iJuliet/archive/2009/05/19/4200771.aspx
）

-：Sunday算法

最后一个是Sunday算法，实际上比Boyer-Moore还快，呵呵。长江后浪推前浪。

原始论文：Daniel M. Sunday, A very fast substring search algorithm, Communications of the ACM, v.33 n.8, p.132-142, Aug. 1990

看原始论文的题目，D.M. Sunday貌似是故意想气气Boyer-Moore两位大牛似的。呵呵。不过实际上的确Sunday算法的确比BM算法要快，而且更简单。

Sunday的算法思想和Horspool有些相似，但是。当出现不匹配的时候，却不是去找匹配串中不匹配的字符在模式串的位置，而是直接找最右边对齐的右一位的那个字符在模式串的位置。

比如：

匹配串：abcbczdxzc

模式串：zbcac

恩，这里我们看到b-a没有对上，我们就看匹配串中的z在模式串的位置，然后，嘿嘿。

匹配串：abcbczdxzc

模式串： zbcac

如果模式串中的没有那个字符怎么办呢？很简单，跳过去呗。

匹配串：abcbcedxzcs

模式串：zbcac

e不在模式串中出现

那么我们就

匹配串：abcbcedxzcs

模式串： zbcac

(2009/10/20补充)
RK算法

某一天在图书馆的一本算法分析设计书上翻到的。思路很新颖！和大家分享下。
在串匹配的简单算法中，把文本每m个字符构成的字符段作为一个字段，和模式进行匹配检查。如果能对一个长度为m的字符

串赋以一个Hash函数。那么显然只有那些与模式具有相同hash函数值的文本中的字符串才有可能与模式匹配，这是必要条件

，而没有必要去考虑文本中所有长度为m的字段，因而大大提高了串匹配的速度。因此RK算法的思想和KMP，BM，Sunday等思

路迥然不同！
（事实上，之前的串匹配方法，是将模式串的一个一个字符作为小的特征去分别进行匹配，而RK算法则是将串整体作为一个

特征！难就难在单个字符的特征很容易想得到，整体作为一个特征就没那么容易想得到了）
如果把整体作为一个特征，那么如何快速的求出这个整体特征的特征值？？
模式串的特征值仅需求一次即可。对于文本中的任意m个字符构成的字串如何快速的求特征就是个难点了。
抛砖引玉，这里给出一个简单的特征计算。将字符串的每一个字符看做一个数，那么这个字符串的就是一个数字数组，通

过积分向量可以快速任意一个长度子字符串的向量和。可以把字符串的对应的字符数组的元素和看做这个字符串整体特征。

这个特征是可以再O（1）的时间内求出的。其实原始的RK算法里面是把字符串看做一个26进制数在计算特征的。这里就不啰

嗦了，有兴趣的可以深入查找

aabseesds 模式串 ees
ees

发现 see向量和 == ees的向量和
然后就对see和ees做逐个字符的比较。发现不匹配继续往下走
aabseesds 模式串 ees
ees
发现 ees向量和 == ees的向量和
然后就对ees和ees做逐个字符的比较。发现匹配OK。

另外还有字符串匹配自动机后缀树算法（分在线和非在线两种）等见如下文章。不能说那个比那个更好，各个算法都有自己的优势及最佳应用场合。参考：
http://blog.csdn.net/yifan403/archive/2009/06/16/4272793.aspx

另外，关于多模式字符串匹配有AC算法（字符串匹配自动机思想） WM算法（BM在多模式的推广应用）
参考：
http://blog.csdn.net/ijuliet/category/498465.aspx该女子的blog有很多好文章。

/**********************华丽分割线******************************/
附上sunday代码：
http://hi.baidu.com/kmj0217/blog/item/6f837f2f3da097311e3089cb.html

一种比KMP和BM更高效的匹配算法（如果想看原英文介绍，看下面分割线后的网址）

适用于：模式串较短的情况，最坏时间复杂性为O(N*M)，不过一般没这么坏

Sunday算法其实思想跟BM算法很相似，只不过Sunday算法是从前往后匹配，在匹配失败时关注的是文本串中参加匹配的最末位字符的下一位字符。如果该字符没有在匹配串中出现则直接跳过，即移动步长= 匹配串长度+ 1；否则，同BM算法一样其移动步长=匹配串中最右端的该字符到末尾的距离+1。

代码如下：

Sunday-字符串匹配算法--一种优于KMP的算法

思想类似于BM算法，只不过是从左向右匹配

遇到不匹配的看大串中匹配范围之外的右侧第一个字符在小串中的最右位置

另外：采用BM/KMP的预处理的做法，事先计算好移动步长，等到遇到不匹配的值直接使用

#include

using namespace std;

//一个字符8位最大256种

#define MAX_CHAR_SIZE 256

/*设定每个字符最右移动步长，保存每个字符的移动步长

如果大串中匹配字符的右侧一个字符没在子串中，大串移动步长=整个串的距离+1

如果大串中匹配范围内的右侧一个字符在子串中，大串移动距离=子串长度-这个字符在子串中的位置

int *setCharStep(char *subStr)

{

int *charStep=new int[MAX_CHAR_SIZE];

int subStrLen=strlen(subStr);

for(int i=0;i

charStep[i]=subStrLen+1;

//从左向右扫描一遍保存子串中每个字符所需移动步长

for(int i=0;i

{

charStep[(unsigned char)subStr[i]]=subStrLen-i;

}

return charStep;

}

算法核心思想，从左向右匹配，遇到不匹配的看大串中匹配范围之外的右侧第一个字符在小串中的最右位置

根据事先计算好的移动步长移动大串指针，直到匹配

int sundaySearch(char *mainStr,char *subStr,int *charStep)

{

int mainStrLen=strlen(mainStr);

int subStrLen=strlen(subStr);

int main_i=0;

int sub_j=0;

while(main_i

{

//保存大串每次开始匹配的起始位置，便于移动指针

int tem=main_i;

while(sub_j

{

if(mainStr[main_i] == subStr[sub_j])

{

main_i++;

sub_j++;

continue;

}

else{

//如果匹配范围外已经找不到右侧第一个字符，则匹配失败

if(tem+subStrLen > mainStrLen)

return -1;

//否则移动步长重新匹配

char firstRightChar=mainStr[tem+subStrLen];

main_i =tem + charStep[(unsigned char)firstRightChar];

sub_j=0;

break;//退出本次失败匹配重新一轮匹配

}

if(sub_j == subStrLen)

return main_i-subStrLen;

}

return -1;

}

int main()

{

char *mainStr="absaddsasfasdfasdf";

char *subStr="dd";

int *charStep=setCharStep(subStr);

cout<<"位置："<

system("pause");

return 0;

}

/*************************************************华丽的分割线***************************************/

算法介绍以及实现伪码：http://www-igm.univ-mlv.fr/~lecroq/string/node19.html

void preQsBc(char *x, int m, int qsBc[]) {
int i;

for (i = 0; i < ASIZE; ++i)
qsBc[i] = m + 1;
for (i = 0; i < m; ++i)
qsBc[x[i]] = m - i;
}

void QS(char *x, int m, char *y, int n) {
int j, qsBc[ASIZE];

/* Preprocessing */
preQsBc(x, m, qsBc);

/* Searching */
j = 0;
while (j <= n - m) {
if (memcmp(x, y + j, m) == 0)
OUTPUT(j);
j += qsBc[y[j + m]]; /* shift */
}
}

// 第三个代码实现，貌似比较高效
http://hi.baidu.com/azuryy/blog/item/10d3d3460b97af0e6b63e5cd.html
头文件定义：
/* Sunday.h */
class Sunday
{
public:
Sunday();
~Sunday();

public:
int find(const char* pattern, const char* text);

private:
void preCompute(const char* pattern);

private:
//Let's assume all characters are all ASCII
static const int ASSIZE = 128;
int _td[ASSIZE] ;
int _patLength;
int _textLength;
};

源文件
/* Sunday.cpp */

Sunday::Sunday()
{
}

Sunday::~Sunday()
{
}

void Sunday::preCompute(const char* pattern)
{
for(int i = 0; i < ASSIZE; i++ )
_td[i] = _patLength + 1;

const char* p;
for ( p = pattern; *p; p++)
_td[*p] = _patLength - (p - pattern);
}

int Sunday::find(const char* pattern, const char* text)
{
_patLength = strlen( pattern );
_textLength = strlen( text );

if ( _patLength <= 0 || _textLength <= 0)
return -1;

preCompute( pattern );

const char *t, *p, *tx = text;

while (tx + _patLength <= text + _textLength)
{
for (p = pattern, t = tx; *p; ++p, ++t)
{
if (*p != *t)
break;
}
if (*p == 0)
return tx-text;
tx += _td[tx[_patLength]];
}
return -1;
}

简单测试下：
int main()

{
char* text = "blog.csdn,blog.net";
char* pattern = "csdn,blog" ;
Sunday sunday;

printf("The First Occurence at: %d/n",sunday.find(pattern,text));

return 1;
}

////////////////////////////////////////////
strstr的实现。
需要说明的是strstr是c语言提供的使用Brute Force实现的字符串匹配，简单、通用是其最大的优点。时间复杂度是O(mn)
// 下面是Microsoft的实现
//经典算法
//比KMP算法简单,没有KMP算法高效
char * __cdecl strstr (
const char * str1,
const char * str2
)
{
char *cp = (char *) str1;
char *s1, *s2;
if ( !*str2 )
return((char *)str1);
while (*cp)
{
s1 = cp;
s2 = (char *) str2;
while ( *s1 && *s2 && !(*s1-*s2) )
s1++, s2++;
if (!*s2)
return(cp);
cp++;
}
return(NULL);
}

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/whoismickey/archive/2009/02/08/3869367.aspx

strstr

glibc里的strstr函数用的是brute-force(naive)算法，它与其它算法的区别是strstr不对pattern(needle)进行预处理，所以用起来很方便。理论复杂度O

(mn),实际上，平均复杂度为O(n),大部分情况下高度优化的算法性能要优于基于自动机的匹配算法，关于串匹配算法可参考 http://www-igm.univ-mlv.fr/~lecroq/string/。glibc中使用了（1）Stephen R. van den Berg的实现，在他的基础上，（2）Tor Myklebust http://sources.redhat.com/ml/libc-alpha/2006-07/msg00028.html给出了更复杂的实现，当然也更高效。

BF有一个重要性质是事先不用知道串的长度，而基于跳跃的算法是需要用字符串长度来判断结束位置的。如何快速的确定字符串结束位置，可参考 http://www.cppblog.com/ant/archive/2007/10/12/32886.html，写的很仔细。

将两种思想结合起来，可以做出更快的strstr（3）。约定（1）为strstrBerg; (2) 为strstrBergo，（3）为lstrstr，（4）为glibc中的strstr，简单测试了一下：

从长度为2k的文本中查找长度为1、2、9的模式串，结果如下

1 2 9

（1）0.000006 0.000006 0.000012

（2）0.000007 0.000004 0.000008

（3）0.000002 0.000002 0.000005

（4）0.000005 0.000005 0.000011
下载strstr和测试程序，
下载后执行 :
unzip testStrstr.zip
cd testStrstr
make test

基于sse2的strstr函数是用sse2指令集对strstr的优化

正则表达式语法、运算符优先级 weixin_54668000 mvc
正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。例如：runoo+b，可以匹配runoob、runooob、runoooooob
分布式计算任务调度算法总结一条鱼2017 分布式计算任务调度算法总结分布式计算任务调度算法总结
一、影响分布式系统性能的因素主要有这些因素影响着分布式系统的性能：网络延迟、数据通信效能、计算节点处理能力、任务的分割、无法预算处理时间、任务的颠簸等等。我们在寻求分布式计算调度算法时，就是有针对性的以解决这些问题为目的，从各个角度，不同侧面，利用一种或者集中方法结合起来的形式，从而达到最优解，使得系统效率相对最高。二、几种基本的调度算法获得网络负载均衡有几个基本的方法。这些方法可以结合使用，形成
DL参考资源（二） antkillerfarm 深度学习
DL参考资源推荐系统https://zhuanlan.zhihu.com/p/26237106深度学习在推荐算法上的应用进展http://i.dataguru.cn/mportal.php?mod=view&aid=11463深度学习在推荐领域的应用https://mp.weixin.qq.com/s/hGvQvddD3i858XSK4z08Ug主要推荐系统算法总结及Youtube深度学习推荐算法
JS中正则表达式捕获组与反向引用详解 OEC小胖胖 JavaScript javascript 正则表达式开发语言前端 web ecmascript
正则表达式（RegularExpression，简称Regex）是一种强大的字符串匹配工具，它能够让我们通过模式来查找、匹配、替换字符串中的内容。而在正则表达式中，捕获组是一个非常重要的概念，常常用于将匹配到的内容保存下来供后续操作。今天我们就来详细讲解JavaScript中的捕获组、反向引用、以及替换操作中的$1、$2等符号。1.什么是捕获组（CaptureGroup）捕获组的定义捕获组是指通过
Unity读书系列《Unity高级编程：主程手记》——C#技术要点 adogai unity 编辑器游戏引擎 c#架构
文章目录前言一、业务逻辑优化技巧二、Unity3d中C#的底层原理三、List底层源码剖析四、Dictionary底层源码剖析五、浮点数的精度问题六、委托、事件、装箱、拆箱七、算法总结前言本文旨在总结某一概念的性质，并引出相关的技术要点。如果读者希望深入了解相关技术，可以通过点击链接获取更多信息。友情提示，建议将本文内容分成多个阶段学习，一次性阅读可能会让新手感到困惑。初次接触某些概念时容易产生误
数据结构与算法Day25----字符串匹配（一）：借助哈希算法实现墨殇染泪
一、主串和模式串：假设在字符串A中查找字符串B，那字符串A就是主串，字符串B就是模式串。把主串的长度记作，模式串的长度记作。因为是在主串中查找模式串，所以。二、暴力匹配算法/朴素匹配算法/BF(BruteForce)算法：1、算法思想：在主串中，检查起始位置分别是0、1、2···且长度为的个子串，看有没有跟模式串匹配的。2、图示：3、时间复杂度：在极端情况下，每次都比对个字符，要比对次
数据结构串的模式匹配算法--BF暴力匹配 Fms_Sa 算法数据结构 c语言
BF（Brute-Force，暴力匹配）算法是一种简单的字符串匹配算法，其基本思想是将目标串S逐个字符与模式串P进行比对，直到找到匹配或遍历完S为止。下面是一个使用C语言实现的BF算法示例：#include#include//BF算法实现//参数：text是文本串，pattern是模式串//返回值：如果找到模式串，则返回模式串在文本串中的起始位置（从0开始计数）；如果未找到，则返回-1intBF(
正则表达式详解朱什么凡正则表达式 mysql 数据库
正则表达式（RegularExpression）1.定义与用途正则表达式是一种描述字符串匹配模式的工具，它可以用来检查一个字符串是否含有某种子串、将匹配的子串做替换或者从某个字符串中取出符合某个条件的子串等。正则表达式由普通字符（如a到z）和特殊字符（称为“元字符”）组成，用于定义搜索文本时要匹配的一个或多个字符串的模式。2.基本语法与规则2.1字符类备选字符集：用[]表示，匹配方括号中的任意字符
Python算法模糊匹配：FuzzyWuzzy深度剖析，从入门到精通，解决你所有需要匹配的需求长风清留扬 Python 人工智能算法 python 算法大数据网络 dba
在数据科学与机器学习的广阔领域中，处理不精确或模糊的数据是一项至关重要的技能。想象一下，当你面对的是一堆拼写错误、缩写、或是格式不一的文本数据时，如何高效地从中提取有价值的信息？这正是FuzzyWuzzy——Python中一个强大的模糊字符串匹配库，能够大展身手的地方。本文将为你全面介绍FuzzyWuzzy——Python中一个强大的通过算法模糊字符串匹配库，全网最全最新，一看就会，接下来带你走进
面试中需要熟知的字符串知识华南溜达虎数据结构与算法面试算法数据结构职场和发展
面试中需要熟知的字符串知识字符串介绍字符串是一串字符组成的序列，跟数组类似，处理数组的一些方法同样适用于字符串，建议读本文前先读一下面试中需要熟知的数组知识。查找字符串常用的数据结构有：前缀树后缀树常用的字符串算法：KMP算法，在字符串匹配时特别高效。时间复杂度字符串实际上就是一个字符数组，字符串操作和数组操作类似，所以复杂度也基本类似。操作时间复杂度访问O(1)搜索O(n)插入O(n)删除O(n
2021-08-09 小咸鱼Leo00
一、redis服务配置文件详解二、RDB/AOF详解及优缺点总结三、rediscluster扩、缩容四、LVS调试算法总结五、LVS的NAT/DR模型实现
图与树的基本概念小魏冬琅其他算法
目录引言图与树结构的重要性图的基本概念图的表示方式图的遍历算法树的基本概念树的定义与性质树的遍历二叉树与多叉树的概念图与树的高级应用最短路径算法最小生成树算法总结与应用综合实例分析引言在计算机科学的世界中，图和树是两种非常重要的数据结构。它们不仅在理论上有着广泛的研究价值，更是在实际编程中广泛应用于网络通信、路径规划、数据库索引等领域。通过深入理解图与树的基本结构与算法，我们可以更高效地解决许多复
JS中document.querySelector什么意思北原_春希 javascript 前端开发语言
document.querySelector是JavaScript中的一个DOM(DocumentObjectModel)方法，用于从文档中选择与指定选择器组或选择器字符串匹配的第一个Element。如果没有找到任何匹配的元素，则返回null。letelement=document.querySelector('selector');其中'selector'是一个CSS选择器，例如：'#myId'
hr跟我说从第二个问题就可以停止面试了 lozhyf 面试职场和发展开发语言面试
#24届软开秋招面试经验大赏#但是他还是跟我聊了一个多小时很有耐心，哎，而且当场根据我不会或者答得不好的问题教我es6新特性解释下事件循环看事件循环的代码解释一下输出顺序写js循环算法总结多巩固js基础这个是js游戏岗，我是25届的作者：阿北Char
正则表达式总结（校验数字,字符串及特殊需求的表达式） polaris9z JavaScript javascript
定义：正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。正则表达式是由普通字符（例如字符a到z）以及特殊字符（称为"元字符"）组成的文字模式。模式描述在搜索文本时要匹配的
KMP?next数组？前缀表？菜鸟重拾C++之算法阿卡西番茄酱 C++算法算法 c++leetcode
实现strStr（）知识点KMP（Knuth-Morris-Pratt）算法是一种用于字符串匹配的高效算法。其原理基于字符串匹配时的特性，通过预处理模式字符串（待匹配字符串）的信息，避免在匹配过程中重复比较已经匹配过的部分。前缀表记录了模式字符串中最长相同前后缀的长度前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串。后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。最长相同前后
LeetCode438.找到字符串中所有字母异位词 Stephen_Curry___ 算法数据结构 leetcode c++
题目给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。异位词指由相同字母重排列形成的字符串（包括相同的字符串）。示例输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。思路这是一道经典的字符串匹配问题，可以使用滑动窗
LeetCode 37天 | 738.单调递增的数字贪心算法总结星仔007 leetcode 贪心算法算法
738.单调递增的数字今天就做一题，监控二叉树不想做了。从后向前找到最终的一个前大于后的情况，记录后为修改起点，前为减一操作，后面都可以为9，因此前仅减一就可以了。classSolution{public:intmonotoneIncreasingDigits(intn){intres;//inttostring的函数to_string()可以把整数转化为字符串stringnum=to_strin
排序算法总结（1） chuaa
1.冒泡排序functionbubbleSort(arr){for(leti=0,len=arr.length;iarr[j+1]){[arr[j],arr[j+1]]=[arr[j+1],arr[j]];}}}returnarr;}2.选择排序functionselectSort(arr){for(leti=0,len=arr.length;iarr[j]){minIndex=j;}}[arr[
备战2023蓝桥国赛-重新理解Floyd及最短路算法总结 RCyyds 搜索与图论蓝桥杯算法图论 c++
备战2023蓝桥国赛-重新理解Floyd及最短路算法总结Floyd算法最短路算法总结Floyd算法题目描述：解析：多源最短路算法Floyd，就是用动态规划来解决的。先初始化dist值，由于i和j可能相同，故i==j时要特判赋为0，因为不走也算一种方案。不同时赋值为INF。Floyd算法部分就是枚举中继节点，起点和终点，三重循环来更新dist值。时间复杂度为O（n✖n✖n）代码：#includeus
KMP算法 Psycho social 字符串算法信息学竞赛 C++
目录KMP算法字符串匹配问题朴素算法简介思想做法例题KMP算法字符串匹配问题字符串匹配是一种计算机会频繁使用的算法。，例如有一个字符串主串S：knocktheheaven'sdoor，现在需要知道S中是否包含子串P：heaven。这是一个十分常见的问题，由于使用次数很多，所以算法的效率是十分重要的。朴素算法首先来讲，最朴素的方法莫过于是顺次比较，假定主串S的长度为n，子串P的长度是m，我们依次从主
蓝桥杯算法总结别催了马上交蓝桥杯算法算法蓝桥杯 c++
ACWing算法基础课笔记闲来无事，利用阿里云做了个图床，已经将图片全部上传了。1.基础算法1.排序快速：选择一个数，让数组中比他小的靠左，比他大的靠右，然后在左边右边同样进行操作。注意边界问题。O(nlogn)一般选择mid=l+r+1>>1，因为是用dowhile，所以设置i和j都是l和r往外一个。当i=j说明左边都小于a[mid]，右边都大于a[mid]了，然后对于左边和右边再进行quick
快速排序算法总结简单易懂 S1XmKl 算法排序算法算法数据结构
**快速排序算法**文章目录快速排序算法一、基本概念二、思路步骤三、编写代码1.快速排序2.完整代码四、运算结果五、总结评价一、基本概念快速排序是由冒泡排序改进而得。在冒泡排序中，只对相邻的两个记录进行比较，所以每次只能消除一个逆序。而快速排序一次交换可以消除多个逆序，会大大提升排序的速度。二、思路步骤对于一组记录arr[]我们将最左边的值设为基准值key，两个哨兵i,j分别在最左边和最右边分别移
十种经典排序算法总结天瑕数据结构与算法排序算法
1冒泡排序每次循环都比较前后两个元素的大小，如果前者大于后者，则将两者进行交换。这样做会将每次循环中最大的元素替换到末尾，逐渐形成有序集合。将每次循环中的最大元素逐渐由队首转移到队尾的过程形似“冒泡”过程，故因此得名。一个优化冒泡排序的方法就是如果在一次循环的过程中没有发生交换，则可以立即退出当前循环，因为此时已经排好序了（也就是时间复杂度最好情况下是的由来）。publicint[]bubbleS
排序算法总结 CodeMonkey-D Java SE 排序算法算法 java
排序算法冒泡排序N个数字进行冒泡排序，一共比较N-1轮，每轮比较N-1-i次，每次相邻的元素进行比较，满足条件进行交换publicstaticvoidmain(String[]args){//冒泡排序int[]arr={9,3,6,2,1,4,5,7};//外层循环控制轮数//内存循环控制每轮比较的次数for(inti=0,n=arr.length;iarr[k+1]){//采用异或运算符交换相邻
leetcode算法总结（基于carl网站） yyjshang Cpp Learning Road c++数据结构算法
前言本篇参考链接:代码随想录.所有类型题都可在网站里找到，这里不做详细标注数组二分查找适用情况：在已经排序好的数组（元素无重复）中快速找到某一个满足条件的元素。例题：给定一个n个元素有序的（升序）整型数组nums和一个目标值target，写一个函数搜索nums中的target，如果目标值存在返回下标，否则返回-1。思考用哈希会怎么样？在已经排序好的数组下，用哈希耗时更长，若是未排序好的数组可以考虑
爬虫之正则表达式 Lei宝啊 Python(语法爬虫数据分析)正则表达式
个人主页：Lei宝啊愿所有美好如期而遇概念：正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），正则匹配是一个模糊的匹配(不是精确匹配)如下四个方法经常使用：match()search()findall()finditer()匹配单个字符或数字：匹配说明.匹配除换行符以外的任意字符，当flags被设置为re.S时，可以匹配包含换行符以内的所有字符[]里面是
各种排序算法总结 qq_28598203 数据结构与算法设计数据结构排序
从这一部分开始直接切入我们计算机互联网笔试面试中的重头戏算法了，初始的想法是找一条主线，比如数据结构或者解题思路方法，将博主见过做过整理过的算法题逐个分析一遍(博主当年自己学算法就是用这种比较笨的刷题学的，囧)，不过又想了想，算法这东西，博主自己学的过程中一直深感，基础还是非常重要的，很多难题是基础类数据结构和题目的思想综合发散而来。比如说作为最基本的排序算法就种类很多，而事实上笔试面试过程中发现
力扣第 384 场周赛解题报告 | 珂学家 | 贪心构造 + KMP板子珂朵莉MM 力扣周赛解题报告 leetcode 算法职场和发展 java 开发语言矩阵
前言整体评价因为是新春过年，所以题目出的相对简单一些，T4和上周一样，是字符串匹配模板题。T1.修改矩阵思路:模拟按要求模拟即可classSolution{publicint[][]modifiedMatrix(int[][]matrix){inth=matrix.length;intw=matrix[0].length;int[]cols=newint[w];Arrays.fill(cols,I
【算法】字符串匹配算法柳下敲代码算法算法哈希算法数据结构
文章目录一、字符串匹配1.KMP2.字符串哈希一、字符串匹配记：主串sss长度为mmm，子串ppp长度为nnn。1.KMP暴力的做法，是在当前字符不匹配的时候，主串和子串都回溯，这样做显然是O(nm)O(nm)O(nm)的。KMPKMPKMP则是主串不回溯，子串回溯到特定位置，这个特定位置由子串的nextnextnext数组决定。该算法的时间复杂度是O(n+m)O(n+m)O(n+m)。chars
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

字符串匹配算法总结

strstr

你可能感兴趣的:(字符串匹配算法总结)