You are given a string, S, and a list of words, L, that are all of the same length. Find all starting indices of substring(s) in S that is a concatenation of each word in L exactly once and without any intervening characters.
For example, given:
S: "barfoothefoobarman"
L: ["foo", "bar"]
You should return the indices: [0,9]
.
(order does not matter).
这题一开始做了很久,尝试了先将L里的每个词的开头字符都提取出来,相同开头字符的归为一类词群,然后把L转化为了一个multimap,这样的话每次看开头字符找到可能匹配的词群所需时间就是O(1)了。之后再以S中的每个字符作为起点,开始了使用DFS逐个匹配查找。当然,最后剩的少许字符可以不用考虑,因为光剩下的子字符串的长度可能就不够覆盖L里的所有词了。
这个过程很复杂的,关键是回溯的过程中,删除和恢复一个词群中的词都很麻烦,而且时间复杂度也不会很简单。后来又怀疑是否要用到“Implement StrStr()”那题的最优解法——KMP算法。
后来在网上搜了下,发现我忽略了一个重要条件:L中的所有词的长度都是一样的!有了这点,题目可以大大的简化。如果L中每个词的长度为l,且一共有n个词,那么对于S中一个可以覆盖L中所有词的子字符串,一定长度为l*n,并且可以将其直接划分为n个长度为l的词。然后再判断这些词是否都跟L中的词完全匹配即可。这样的字符串下标可以从0到S.length()-l*n中的任意一个下标开始,再后面子字符串的长度就不够了,不用考虑。
为了使得词匹配效率高,这里得使用HashMap先对L做个word counting操作。题目其实这里没说清楚,没说L里的词是否可以重复,test case里显示是可以重复的。不然可以用HashSet更省事。
public ArrayList<Integer> findSubstring(String S, String[] L) { ArrayList<Integer> list = new ArrayList<Integer>(); int wordLen = L[0].length(); int numOfWords = L.length; int length = wordLen * numOfWords; // substring length if (S.length() < length) return list; // initialize a hash map to facilitate the word match by word counting HashMap<String, Integer> map = new HashMap<String, Integer>(); for (String word : L) { if (!map.containsKey(word)) { map.put(word, 1); } else { map.put(word, map.get(word) + 1); } } for (int i = 0; i <= S.length() - length; i++) { String substr = S.substring(i, i + length); HashMap<String, Integer> map2 = (HashMap<String, Integer>) map .clone(); // partition the substring into the words of equal length while (true) { String word = substr.substring(0, wordLen); if (map2.containsKey(word)) { int num = map2.get(word) - 1; // not found: too many occurrences if (num < 0) { break; } map2.put(word, num); substr = substr.substring(wordLen); // found if (substr.isEmpty()) { list.add(i); break; } } // not found: unmatched else { break; } } } return list; }