【LeetCode通关全记录】187. 重复的DNA序列
题目地址:187. 重复的DNA序列
解法1:哈希表(最容易想到)
对于这道题,一个很容易想到的方法就是从字符串开头统计出所有长度为10的字串放入哈希表(key为字串,value为出现次数),向后遍历时将每个长度为10的字串都与哈希表中已有的字符串进行比较,如果该字符串在哈希表里已经出现过就将该字串加入到答案集合中,否则将该字串作为key放入哈希表并置其value为1。
func findRepeatedDnaSequences(s string) []string {
l := 10
m := make(map[string]int, 0)
ans := make([]string, 0)
for i := 0; i <= len(s)-l; i++ { // 注意这里,需要用<=,否则就会漏判一位导致答案错误
str := s[i : i+10]
m[str]++
if m[str] == 2 {
ans = append(ans, str)
}
}
return ans
}
执行用时: 12 ms(超过90%的Golang提交记录)
内存消耗: 9.4 MB(超过34%的Golang提交记录)
时间复杂度:O(n * L),for循环的执行次数与n成线性相关,并且计算字符串哈希需要消耗的时间与字符串长度L成正比;
空间复杂度:O(n),map需要占用的存储空间与字符串长度成正比。
解法2:位运算+自定义哈希(效率高)
由于该题的字符串只有A、G、C、T四种字符组成,所以我们可以使用自定义哈希的方法来减少计算哈希的时间和存储哈希所用的空间。如果采用00、01、10、11来编码四个字符,那么使用一个int就可以存下整个长度为10的字符串,这样可以大大提高算法的效率。但是如果只做这样的优化,对时间复杂度的提升是比较小的,进一步优化的思路则是利用位运算加快计算。设使用一个20位的空间来表示长度为10的字符串的哈希值,那么每向后运算一位,就将这个整数左移2位并将高于20位的字符清零(w = w << 2 & 1 << 20 - 1
),再将新的字符的哈希填入这个20位的空间的低2位(w |= h[c]
,其中h[c]
为字符c
的自定义哈希)。
// 自定义哈希表
var h = map[byte]int{'A': 0, 'C': 1, 'G': 2, 'T': 3}
func findRepeatedDnaSequences(s string) []string {
// 长度小于等于10的字符串中是肯定不会出现长度为10的重复字串的
if len(s) <= 10 {
return []string{}
}
w := 0
// 准备工作: 计算出前10位的哈希,填入准备好的空间中
for _, c := range s[:9] {
w = w<<2 | h[byte(c)]
}
ans := make([]string, 0)
m := map[int]int{}
// 计算哈希,找出符合要求的字串
for i := 0; i <= len(s)-10; i++ {
w = (w<<2 | h[s[i+9]]) & (1<<20 - 1)
m[w]++
if m[w] == 2 {
ans = append(ans, s[i:i+10])
}
}
return ans
}
执行用时: 16 ms(超过73%的Golang提交记录)
内存消耗: 8.9 MB(超过87%的Golang提交记录)
时间复杂度:O(n ),for循环的执行次数与n成线性相关;
空间复杂度:O(n),map需要占用的存储空间与字符串长度成正比。