《剑指 Offer》专项突破版 - 面试题 14 : 字符串中的变位词(C++ 实现)

题目链接:LCR 014. 字符串的排列 - 力扣(LeetCode)

题目

输入字符串 s1 和 s2,如何判断字符串 s2 中是否包含字符串 s1 的某个变位词?如果字符串 s2 中包含字符串 s1 的某个变位词,则字符串 s1 至少有一个变位词是字符串 s2 的子字符串。假设两个字符串中只包含英文小写字母。例如,字符串 s1 为 "ac",字符串 s2 为 "dgcaf",由于字符串 s2 中包含字符串 s1 的变位词 "ca",因此输出 true。如果字符串 s1 为 "ab",字符串 s2 为 "dgcaf",则输出 false。

分析

变位词是与字符串相关的面试题中经常出现的一个概念。所谓的变位词是指组成各单词的字母及每个字母出现的次数完全相同,只是字母排列的顺序不同。例如 "pots"、"stops" 和 "tops" 就是一组变位词。

由变位词的定义可知,变位词具有以下几个特点。首先,一组变位词的长度一定相同;其次,组成变位词的字母集合一定相同,且每个字母出现的次数也相同

这个题目如果不考虑时间复杂度,用暴力法就可以解决。实际上,一个字符串的变位词是字符串的排列。可以先求出字符串 s1 的所有排列,然后判断每个排列是不是字符串 s2 的子字符串。

下面尝试寻找更高效的算法。

设字符串 s1 的长度为 m,字符串 s2 的长度为 n。这个题目实际上等价于判断字符串 s2 中是否存在长度为 m,且字符及其个数与字符串 s1 相同的子字符串

因此,我们先用哈希表统计字符串 s1 中每个字符出现的次数,由于这个题目强调字符串只包含英文小写字母,而英文小写字母的个数是确定的,一共 26 个,因此可以用数组模拟一个简单的哈希表。数组的下标 0 对应字母 'a',它的值对应字母 'a' 出现的次数。数组的下标 1 对应字母 'b',它的值对应字母 'b' 出现的次数。以此类推,数组的下标 25 对应字母 'z',它的值对应字母 'z' 出现的次数。

然后逐一判断字符串 s2 中长度为 m 的子字符串中的字符及其个数是否和 s1 相同。判断方法就是扫描子字符串中的每个字符,把该字符在哈希表中对应的值减 1,如果哈希表中所有的值是 0,那么该子字符串就是字符串 s1 的一个变位词

代码实现

class Solution {
public:
    bool areAllZero(const vector& counts)
    {
        for (int count : counts)
        {
            if (count != 0)
                return false;
        }
        return true;
    }

    bool checkInclusion(string s1, string s2) {
        int m = s1.size(), n = s2.size();
        if (m > n)
            return false;
        
        vector counts(26, 0);
        for (int i = 0; i < m; ++i)
        {
            ++counts[s1[i] - 'a'];
            --counts[s2[i] - 'a'];
        }

        // 判断 s2 中前 m 个字符组成的子字符串是否为 s1 的变位词
        if (areAllZero(counts))
            return true;

        // 逐个判断 s2 中其余长度为 m 的子字符串是否为 s1 的变位词
        for (int i = m; i < n; ++i)  // 注意:i 指向子字符串的最后一个字符
        {
            ++counts[s2[i - m] - 'a'];
            --counts[s2[i] - 'a'];
            if (areAllZero(counts))
                return true;
        }
        return false;
    }
};

该算法的时间复杂度是 O(m + 26n),即 O(m + n);空间复杂度是 O(1)

你可能感兴趣的:(数据结构,c++,面试,java,leetcode,算法,数据结构,散列表)