[leetcode]187. Repeated DNA Sequences

题目链接:https://leetcode.com/problems/repeated-dna-sequences/#/description

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

For example,

Given s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT",

Return:
["AAAAACCCCC", "CCCCCAAAAA"].

从头到尾扫描每一个长度为10的子串,并且用哈希表保存已经遇到过的子串。

当访问到某个子串时,哈希表中已经存在相同的串,那么这就是要找的重复片段了。

但是,如果我们直接把子串保存到哈希表里,LeetCode会报告“Memory Limit Exceeded”,因此需要减少内存的使用。

下面是一个可行的方案:

字符串中只包含4个字符:A, C, G, T。它们的ASCII码的二进制形式是:

  • A : 0100 0001
  • C : 0100 0011
  • G : 0100 0111
  • T : 0101 0100

这4个字符的末3位是不同的,因此,我们可以 3个bits 来表示其中的一个字符。
又因为每个子串的长度为10,因此总的位数是:10 x 3 = 30,一个int就足够存放它。

class Solution{
public:
    vector findRepeatedDnaSequences(string s)
    {
        vector res;
        const int len=10;
        int hashOfSeq=0;
        for(int i=0;i seqs;
        for(int i=len-1;i


你可能感兴趣的:(leetcode,其它(重要))