【408计算机考研】数据结构——第四章 串

第四章 串

*4.1 串的定义和实现

字符串简称计算机上非数值处理的对象基本都是字符串数据

4.1.1 串的定义

串(string)由零个或多个字符组成的有限序列

串中字符的个数n称为串的长度n=0时的串称为空串(用∅表示)

串中任意多个连续的字符组成的子序列称为该串的子串包含子串的串称为主串。某个字符在串中的序号称为该字符在串中的位置。

子串在主串中的位置以子串的第一个字符在主串中的位置来表示。

当两个串的长度相等且每个对应位置的字符都相等时,称这两个串是相等的。

串是一种特殊的线性表

4.1.2 串的存储结构

  1. 定长顺序存储表示
#define MAXLEN 255		//预定最大串长255
typedef struct{
    char ch[MAXLEN];	//每个分量存储一个字符
    int length;			//串的实际长度
}SString;
  1. 堆分配存储表示
typedef struct{
    char *ch;			//按串长分配存储区,ch指向串的基地址
    int length;			//串的实际长度
}HString;
  1. 块链存储表示

【408计算机考研】数据结构——第四章 串_第1张图片

4.1.3 串的基本操作

  • StrAssign(&T,chars): 赋值操作。把串T赋值为chars。
  • StrCopy (&T, S): 复制操作。由串T复制得到串。
  • StrEmpty (S): 判空操作。若S为空串,则返回 TRUE, 否则返回 FALSE。
  • StrCompare (S, T): 比较操作。若 S>T, 则返回值>0; S=T, 则返回值=0; S
  • StrLength (S) : 求串长。返回串S的元素个数。
  • SubString(&Sub,S,pos,len): 求子串。用Sub返回串S的第pos个字符起长度为len的子串。
  • Concat(&T,S1,S2): 串联接。用T返回由S1和S2联接而成的新串。
  • Index(S,T): 定位操作。若主串S中存在与串T值相同的子串,则返回它在主串S第一次出现的位置;否则函数值为0。
  • ClearString(&S): 清空操作。将S消为空串。
  • DestroyString (&S): 销毁串。将串S销毁。

4.2 串的模式匹配

4.2.1 简单的模式匹配算法

子串的定位操作通常称为串的模式匹配它求的是子串(常称模式串)在主串中的位置

朴素模式匹配算法

算法思想:

①主串长n,模式串长m

②将主串中所有长度为m的子串与模式串对比

③找到第一个与模式串匹配的子串,并返回子串起始位置

④若所有子串都不匹配,则返回0

最坏时间复杂度=O(nm)

【408计算机考研】数据结构——第四章 串_第2张图片

若当前子串匹配失败,则主串指针i指向下一个子串的第一个位置,模式串指针j回到模式串的第一个位置

4.2.2 串的模式匹配算法——KMP 算法

根据模式串T,求出next数组——>利用next数组进行匹配(主串指针不回溯)

next数组的作用:当模式串的第j个字符失配时,从模式串的第next[j]的继续往后匹配

任何模式串都一样,第一个字符不匹配时,只能匹配下一个子串,因此,next[1]都无脑写0;第2个字符不匹配时,应尝试匹配模式串的第1个字符,因此,next[2]都无脑写1

其他next:在不匹配的位置前,划一-根美丽的分界线模式串一步一步往后退,直到分界线之前“能对上”,或模式串完全跨过分界线为止。此时j指向哪儿,next数组值就是多少

【408计算机考研】数据结构——第四章 串_第3张图片

【408计算机考研】数据结构——第四章 串_第4张图片

KMP算法,最坏时间复杂度O(m+n)

其中,求next数组时间复杂度O(m),模式匹配过程最坏时间复杂度O(n)

4.2.3 KMP 算法的进一步优化

前面定义的 next 数组在某些情况下尚有缺陷,还可以进一步优化。如表所示,模式 ‘aaaab’ 在和主串 ‘aaabaaaab’ 进行匹配时:

主串 a a a b a a a a b
模式串 a a a a b
j 1 2 3 4 5
next[j] 0 1 2 3 4
nextval[j] 0 0 0 0 4

手算解题:先求next数组,再由next数组求nextval数组

你可能感兴趣的:(408学习笔记,学习,经验分享,数据结构,c++,c语言)