什么时候考虑采用哈希,当需要快速判断一个元素是否出现在集合里
哈希碰撞:当两个元素映射到哈希表中的同一个索引下标,一般有两种解决办法:拉链法和线性探测法。
拉链法:将发生冲突的元素都存储在链表中,然后通过索引来寻找,这样既不会因为数组空值而浪费大量内存,也不会因为链表太长而在查找上浪费太多时间。
线性探测法:要求表的大小(tableSize)大于数据长度(dataSize),在冲突的位置向下找一个空位来放置另一个数据。
常见三种哈希结构
在C++中,set 和 map 分别提供以下三种数据结构,其底层实现以及优劣如下表所示:
集合 | 底层实现 | 是否有序 | 数值是否可以重复 | 能否更改数值 | 查询效率 | 增删效率 |
---|---|---|---|---|---|---|
std::set | 红黑树 | 有序 | 否 | 否 | O(log n) | O(log n) |
std::multiset | 红黑树 | 有序 | 是 | 否 | O(log n) | O(log n) |
std::unordered_set | 哈希表 | 无序 | 否 | 否 | O(1) | O(1) |
std::unordered_set底层实现为哈希表,std::set 和std::multiset 的底层实现是红黑树,红黑树是一种平衡二叉搜索树,所以key值是有序的,但key不可以修改,改动key值会导致整棵树的错乱,所以只能删除和增加。
映射 | 底层实现 | 是否有序 | 数值是否可以重复 | 能否更改数值 | 查询效率 | 增删效率 |
---|---|---|---|---|---|---|
std::map | 红黑树 | key有序 | key不可重复 | key不可修改 | O(log n) | O(log n) |
std::multimap | 红黑树 | key有序 | key可重复 | key不可修改 | O(log n) | O(log n) |
std::unordered_map | 哈希表 | key无序 | key不可重复 | key不可修改 | O(1) | O(1) |
std::unordered_map 底层实现为哈希表,std::map 和std::multimap 的底层实现是红黑树。同理,std::map 和std::multimap 的key也是有序的(这个问题也经常作为面试题,考察对语言容器底层的理解)。
当使用集合来解决哈希问题,优先使用unordered_set,因为它的查询和增删效率是最优的,如果需要集合是有序的,那么就用set,如果要求不仅有序还要有重复数据的话,那么就用multiset。
对于map来说 ,map 是一个key value 的数据结构,map对key有限制,对value没有限制,因为key的存储方式使用红黑树实现。
思路:
class Solution {
public:
bool isAnagram(string s, string t){
int record[26] = {0};
for(int i = 0; i < s.size(); i++) {
record[s[i] - 'a']++;
}
for(int i = 0; i < t.size(); i++) {
record[t[i] - 'a']--;
}
for(int i = 0; i < 26; i++) {
if(record[i] != 0) {
return false;
}
}
return true;
}
};
注:该方法时间复杂度为O(n),空间复杂度为O(1)
思路:本体需要学会使用一种哈希数据结构:unordered_set
class Solution {
public:
vector<int> intersection(vector<int>& nums1, vector<int>& nums2) {
unordered_set<int> result_set; //存放结果,用set帮助结果去重
unordered_set<int> nums_set(nums1.begin(), nums1.end());
for(int num : nums2) {
//发现nums2的元素 在nums_set里又出现过
if(nums_set.find(num) != nums_set.end()) {
result_set.insert(num);
}
}
return vector<int>(result_set.begin(), result_set.end());
}
};
问:是否所有哈希问题都能用set去做?
答:理论上可以,但是直接使用set 不仅占用空间比数组大,而且速度要比数组慢,set把数值映射到key上都要做hash计算的。这个耗时在数据量大的情况,差距是很明显的。
思路:题目中说了会 无限循环,那么也就是说求和的过程中,sum会重复出现,这对解题很重要!
class Solution {
public:
//取数值各位上的单数之和
int getSum(int n) {
int sum = 0;
while(n) {
sum += (n % 10) * (n % 10);
n /= 10;
}
return sum;
}
bool isHappy(int n) {
unordered_set<int> set;
while(1) {
int sum = getSum(n);
if(sum == 1) {
return true;
}
//如果sum曾经出现,说明已经陷入循环,return false
if(set.find(sum) != set.end()) {
return false;
}
else {
set.insert(sum);
}
n = sum;
}
}
};
思路:本题需要一个集合来存放遍历过的元素,然后在遍历数组的时候去询问这个集合,某元素是否遍历过,即是否出现在这个集合,使用哈希法。
而且需要使用 key value结构来存放,key来存元素,value来存下标,那么联想到使用map,且不需要key有序,所以选择std::unordered_map 效率更高
map用来存放访问过的元素,在遍历数组的时候,记录之前遍历过的元素及其对应的下标,便于找到当前元素相匹配的
class Solution {
public:
vector<int> twoSum(vector<int>& nums, int target) {
std::unordered_map <int,int> map;
for(int i = 0; i < nums.size(); i++) {
//遍历当前元素,在map中寻找是否有匹配的key
auto iter = map.find(target - nums[i]);
if(iter != map.end()) {
return {iter->second, i};
}
//如果没找到匹配对,就把访问过元素和下标加入到map中
map.insert(pair<int, int>(nums[i], i));
}
return {};
}
};