题目描述:
All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.
Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.
我的问题解答过程:(为方便举例,将题目中的长度为10,改为长度为3)
最开始我采用的是暴利枚举方法,其过程如下:
即假设有字符串AATTGGAATTCCGG,先提取出前三个AAT,然后直接用indexOf函数在剩余的字符串中寻找是否仍然含有AAT,因时间复杂度过高,超时。
于是百思不得其解,百度之,得到了Hash方法,其hash值计算方法为:
因为只有ACGT四个字母,那么用2个bit即可以表示,即00,01,10,11即可。
于是乎,10个连续的字符的hash值计算方法为:
<span style="font-family: Arial, Helvetica, sans-serif;"><span style="white-space:pre"> </span>int hash = 0;</span>
<span style="font-family: Arial, Helvetica, sans-serif;">for(int loc = 0; loc <= 9; ++loc)</span>
{ hash = (hash << 2) + ACGT对应的数字 }
在掌握了Hash计算方法之后,实现的第一个版本为:
即假设有字符串AATTGGAATTCCGG,然后暴力计算出此字符串中所有的连续三个数字的hash值,比如AAT的hash值为000011,ATT的hash值为001111,然后将所有的hash值依次加入到一个map(key:hash值,value:对应此hash值得连续10个字母的开始位置)中,如果有重复的,则加入到结果中。但是由于此种方法要计算所有连续10个字母的hash值,时间和空间的复杂度都较高,超时。
于是乎又重新拜读了了下大神的代码,发现有可改进之处,比如已经计算好了AAT,下一个连续三个的字符串是ATT,则只需要将AAT的hash值向左移动2位再加入T的hash码(11)即可。这样大大减少了Hash的计算时间以及空间消耗,ac
代码如下:
public class Solution { public List<String> findRepeatedDnaSequences(String s) { List<String> re = new LinkedList<String>(); //hash值,出现的次数(如果重复则变为负数) Map<Integer,Integer> tenHash = new HashMap<Integer,Integer>(); Map<Character, Integer> cToi = new HashMap<Character, Integer>(); cToi.put('A',0); cToi.put('C',1); cToi.put('G',2); cToi.put('T',3); Integer key = 0; if(null == s || s.length() < 10) { return re; } //产生初始的key for(int i = 0; i <=9 ;++i) { key = (key << 2) + cToi.get(s.charAt(i)); } //将初始key加入到列表中 tenHash.put(key, 1); for(int loc = 10; loc <= s.length() - 1 ; ++loc) { key = ((key & 0x3ffff) << 2) | cToi.get(s.charAt(loc)); //已经存在,且恰巧只出现过1次 if(true == tenHash.containsKey(key) && tenHash.get(key) == 1) { tenHash.put(key, 2); re.add(s.substring(loc - 9, loc + 1)); } else if(false == tenHash.containsKey(key)) { tenHash.put(key, 1); } } return re; } }
http://blog.csdn.net/xudli/article/details/43666725