1.介绍
字符串:简称为串,是由零个或多个字符组成的有限序列。一般记为s = “a1a2…an”
根据字符串的特点,可以将字符串问题分为以下几种:
2.字符串的比较
字符串之间的比较是通过组成字符串的字符之间的字符编码来决定的,而字符编码指的是字符在对应字符集中的序号。
def strcmp(str1, str2):
index1, index2 = 0, 0
while index1 < len(str1) and index2 < len(str2):
if ord(str1[index1]) == ord(str2[index2]):
index1 += 1
index2 += 2
elif ord(str1[index1]) < ord(str2[index2]):
return -1
else:
return 1
if len(str1) < len(str2):
return -1
elif len(str1) > len(str2):
return 1
else:
return 0
字符编码:计算机中常用字符使用的是ASCII码,但是只能解决以英文为主的语言。为了解决中文编码,我国制定了GB2312、GBK、GB18030等中文编码标准,为了解决全世界语言问题,出现了Unicode编码,常见的Unicode编码是UTF-8,把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节。
3.字符串的存储结构
字符串的存储结构跟线性表相同,分为顺序存储结构和链式存储结构
字符串匹配:又称模式匹配。可以简单理解为,给定字符串T和p,在主串T中寻找子串p。主串T被称为文本串,子串p称为模式串。
根据模式串的个数,字符串匹配问题分为单模式串匹配问题和多模式串匹配问题。
1.单模式串匹配问题
定义:给定一个文本串T=t1t2…tn,再给定一个特定模式串p=p1p2…pn.要求从文本串T找出特定模式串p的所有出现位置。
基于前缀搜索方法:在搜索窗口内从前向后逐个读入文本字符,搜索窗口中文本和模式串的最长公共前缀。
基于后缀搜索方法:在搜索窗口内从后向前(沿着文本的反向)逐个读入文本字符,搜索窗口中文本和模式串的最长公共后缀。使用这种搜索算法可以跳过一些文本字符,从而具有亚线性的平均时间复杂度。
基于子串搜索方法:在搜索窗口从后向前逐个读入文本字符,搜索满足既是窗口中文本的后缀,也是模式串的子串的最长字符串。该方法也具有亚线性的平均时间复杂度。主要缺点在于需要识别模式串的所有子串,这是一个非常复杂的问题。
2.多模式串匹配问题
多模式匹配算法大多使用了一种基本的数据结构:字典树(Trie)。著名的AC自动机就是在KMP算法的基础上,与字典树结构相结合诞生的。而AC自动机算法也是多模式串匹配算法中最有效的算法之一。
所以学习多模式匹配算法,重点是掌握字典树和AC自动机算法。
3.单模式串朴素匹配算法
Brute Force算法:暴力匹配算法,也可以叫做朴素匹配算法。
BF算法思想:
def bruteForce(T: str, p: str) -> int:
n, m = len(T), len(p)
i, j = 0, 0
while i < n and j < m:
if T[i] == p[j]:
i += 1
j += 1
else:
i = i - (j - 1)
j = 0
if j == m:
return i - j
return -1
最坏时间复杂度为O(m * n),最理想时间复杂度为O(m),平均时间复杂度O(n + m)
4.单模式串KMP匹配算法
KMP算法思想:对于给定文本串T与模式串p,当发现文本串T的某个字符与模式串p不匹配的时候,可以利用匹配失败后的信息,尽量减少模式串与文本串的匹配次数,避免文本串位置的回退,以达到快速匹配的目的。
朴素匹配算法的缺陷:当文本串与模式串某个字符不匹配时,指向文本串的指针i需要回退到之前匹配开始位置的下一个位置。
KMP算法的改进:利用了每一次匹配失败的信息,主串的某个子串等于模式串的某一个前缀。也就是T[i: i + j] == p[0: j]
KMP算法利用了匹配失败的信息,对模式串p进行了预处理,计算出一个部分匹配表,用一个数组next记录。在每次匹配失败时,不回退文本串的指针i,而是根据next数组中匹配失败j的前一个位置的值,即next[j - 1]来决定模式串可以向右移动的位数。
比如上述示例中模式串p在j=5匹配失败,则说明文本中子串T[i: i + 5]和模式串p[0: 5]字符一致,根据部分匹配表中next[4] = 2,所以不用回退i,而是将j移动到下标为2的位置,让T[i + 5]对准p[2]继续比对。
def generateNext(p: str):
m = len(p)
next = [0 for _ in range(m)]
left = 0
for right in range(1, m):
while left > 0 and p[left] != p[right]:
left = next[left - 1]
if p[left] == p[right]:
left += 1
next[right] = left
return next
def kmp(T: str, p: str) -> int:
n, m = len(T), len(p)
next = generateNext(p)
j = 0
for i in range(n):
while j > 0 and T[i] != p[j]:
j = next[j - 1]
if T[i] == p[j]:
j += 1
if j == m:
return i - j + 1
return -1
时间复杂度为O(n + m)
1.题目描述
题目链接
2.解析思路及代码
思路:有两种方法:
public boolean isPalindrome(String s) {
StringBuffer sgood = new StringBuffer();
for (int i = 0; i < s.length(); i ++ ) {
if (Character.isLetterOrDigit(s.charAt(i))) {
sgood.append(Character.toLowerCase(s.charAt(i)));
}
}
int l = 0, r = sgood.length() - 1;
while (l < r) {
if (sgood.charAt(l) != sgood.charAt(r)) return false;
l ++;
r --;
}
return true;
}
class Solution:
def isPalindrome(self, s: str) -> bool:
n = len(s)
l, r = 0, n - 1
while l < r:
while l < r and not s[l].isalnum():
l += 1
while l < r and not s[r].isalnum():
r -= 1
if l < r:
if s[l].lower() != s[r].lower():
return False
else:
l += 1
r -= 1
return True
1.题目描述
题目链接
2.解题思路及代码
思路:
public String reverseWords(String s) {
List<String> words = Arrays.asList(s.split("\\s+"));
Collections.reverse(words);
return String.join(" ", words);
}
public String reverseWords(String s) {
int l = 0, r = s.length() - 1;
while (l <= r && s.charAt(l) == ' ') l ++ ;
while (l <= r && s.charAt(r) == ' ') r -- ;
List<String> words = new ArrayList<>();
StringBuilder sb = new StringBuilder();
while (l <= r) {
if (s.charAt(l) != ' ') {
sb.append(s.charAt(l));
} else {
if (sb.length() > 0) {
words.add(sb.toString());
}
sb = new StringBuilder();
}
l ++ ;
}
if (sb.length() > 0) words.add(sb.toString());
// reverse
l = 0;
r = words.size() - 1;
while (l < r) {
String tmp = words.get(l);
words.set(l, words.get(r));
words.set(r, tmp);
l ++ ;
r -- ;
}
return String.join(" ", words);
}
class Solution:
def reverseWords(self, s: str) -> str:
return " ".join(reversed(s.split()))
1.题目描述
题目链接
2.解题思路及代码
带贪心的双指针:双指针分别指向字符串第一个位置和最后一个位置,然后判断对应字符是否相等,如果不相等,则分为两种情况,一种是删除左边指针字符,一种是删除右边指针字符,然后判断是否是回文串返回即可。
public boolean validPalindrome(String s) {
int l = 0, r = s.length() - 1;
while (l < r) {
char c1 = s.charAt(l), c2 = s.charAt(r);
if (c1 == c2) {
l ++ ;
r -- ;
} else {
return validPalindrome(s, l, r - 1) || validPalindrome(s, l + 1, r);
}
}
return true;
}
public boolean validPalindrome(String s, int low, int high) {
for (int i = low, j = high; i < j; i ++ , j -- ) {
if (s.charAt(i) != s.charAt(j)) return false;
}
return true;
}
class Solution:
def validPalindrome(self, s: str) -> bool:
def check(low, high):
i, j = low, high
while i < j:
if s[i] != s[j]:
return False
i += 1
j -= 1
return True
l, r = 0, len(s) - 1
while l < r:
if s[l] == s[r]:
l += 1
r -= 1
else:
return check(l + 1, r) or check(l, r - 1)
return True
1.题目描述
题目链接
2.解题思路及代码
思想:本质上就是26进制的问题。需要注意在取模时需要先减去1保证当columnNumber为26时返回26,而不是0
public String convertToTitle(int columnNumber) {
StringBuilder sb = new StringBuilder();
while (columnNumber > 0) {
int c = (columnNumber - 1) % 26 + 1;
sb.insert(0, (char)(c - 1 + 'A'));
columnNumber = (columnNumber - c) / 26;
}
return sb.toString();
}
class Solution:
def convertToTitle(self, columnNumber: int) -> str:
ans = list()
while columnNumber > 0:
a0 = (columnNumber - 1) % 26 + 1
ans.append(chr(a0 - 1 + ord('A')))
columnNumber = (columnNumber - a0) // 26
return "".join(ans[::-1])
1.题目描述
题目链接
2.解题思路及代码
思路:处理顺序是先处理最里面括号的字母,再处理外面的字母,因此使用递归处理。如果遇到数字位,接下来一定是括号,然后递归解析下面的内容。
也可以使用栈实现。
class Solution {
String src;
int ptr;
public String decodeString(String s) {
src = s;
ptr = 0;
return getString();
}
public String getString() {
if (ptr == src.length() || src.charAt(ptr) == ']') {
return "";
}
char cur = src.charAt(ptr);
int repTime = 1;
String res = "";
if (Character.isDigit(cur)) {
repTime = getDigits();
ptr ++ ;
String str = getString();
ptr ++ ;
while (repTime-- > 0) {
res += str;
}
} else if (Character.isLetter(cur)) {
res = String.valueOf(src.charAt(ptr ++ ));
}
return res + getString();
}
public int getDigits() {
int res = 0;
while (ptr < src.length() && Character.isDigit(src.charAt(ptr))) {
res = res * 10 + src.charAt(ptr ++ ) - '0';
}
return res;
}
}
class Solution:
def decodeString(self, s: str) -> str:
NUM = "0123456789"
stack, num, str_ = [], '', ''
for i in range(len(s)):
if s[i] in NUM:
num += s[i]
if s[i + 1] not in NUM:
stack.append(int(num))
num = ''
elif s[i] == ']':
str_ = ''
while stack[-1] != '[':
str_ = stack.pop() + str_
stack.pop()
stack.append(str_ * stack.pop())
else:
stack.append(s[i])
return "".join(stack)