前言:
前面我们一同学习了二叉搜索树,以及特殊版本的平衡二叉搜索树,这些容器让我们查找数据的效率提高到了O(log^2 N)。虽然效率提高了很多,但是有没有一种理想的方法使得我们能提高到O(1)呢?其实在C语言数据结构中,我们接触过哈希表,他可以使效率提高到O(1)。
哈希表作为STL中我们所必须学习和了解的容器,是一种一一映射的存储方式,其次它在日常生活中的应用范围也是很广的,例如位图,海量数据筛选中用到的布隆过滤器等等……
下面我们就来先学习一下STL中的应用哈希表的两个容器,再了解一下底层结构 (两个关联式容器unordered_map和unordered_set,unordered系列的关联式容器之所以效率比较高,是因为其底层使用了哈希结构),最后再来模拟实现一下。
目录
(一)STL中底层应用哈希的两个容器
1、unordered_set
2、unordered_map
(二)常见的查找性能对比
(三)哈希表的概念及模拟实现
1、哈希的概念
2、哈希函数
3、哈希冲突
4、闭散列——开放定址法
5、开散列——链地址法(开链法),哈希桶
(四)详细代码
在STL中对应的容器分别是unordered_map和unordered_set这两个关联式容器。、
我们会用map和set,其实就会用unordered_map和unordered_set这两个容器,但是这两类容器是有区别的!
我们一一分析:
文档链接->unordered_set文档
我们使用一下unordered_set的接口函数:
void test_unordered_set1()
{
unordered_set s1;
s1.insert(1);
s1.insert(2);
s1.insert(9);
s1.insert(2);
s1.insert(3);
s1.insert(3);
s1.insert(4);
s1.insert(5);
unordered_set::iterator it = s1.begin();
while (it != s1.end())
{
cout << *it << " ";
++it;
}
cout << endl;
for (auto e : s1)
{
cout << e << " ";
}
}
结果是实现了存储+去重,但是是无序的。
由上图和查阅资料得知:
这里主要原因是底层实现不同,map和set底层是红黑树,unordered_set和unordered_map底层是红黑树。
其余函数接口和之前所学的容器使用起来大致相同,不再一一赘述。
unordered_map和unordered_set都是单向迭代器:
值得注意的是unordered_map和unordered_set的迭代器都是单向迭代器,而我们之前学的map和set则是双向迭代器(所以迭代器可以++也可以--)。
unordered_set和set的性能对比:
int main()
{
const size_t N = 100000;
unordered_set us;
set s;
vector v;
v.reserve(N);
srand(time(0));
for (size_t i = 0; i < N; i++)
{
v.push_back(rand());
//v.push_back(rand()+i);
//v.push_back(i);
}
size_t begin1 = clock();
for (auto e : v)
{
s.insert(e);
}
size_t end1 = clock();
cout << "set insert:" << end1 - begin1 << endl;
size_t begin2 = clock();
for (auto e : v)
{
us.insert(e);
}
size_t end2 = clock();
cout << "unordered_set insert:" << end2 - begin2 << endl;
size_t begin3 = clock();
for (auto e : v)
{
s.find(e);
}
size_t end3 = clock();
cout << "set find:" << end3 - begin3 << endl;
size_t begin4 = clock();
for (auto e : v)
{
us.find(e);
}
size_t end4 = clock();
cout << "unordered_set find:" << end4 - begin4 << endl << endl;
size_t begin5 = clock();
for (auto e : v)
{
s.erase(e);
}
size_t end5 = clock();
cout << "set erase:" << end5 - begin5 << endl;
size_t begin6 = clock();
for (auto e : v)
{
us.erase(e);
}
size_t end6 = clock();
cout << "unordered_set erase:" << end6 - begin6 << endl << endl;
return 0;
}
数据随机但有重复: 数据随机但重复少
数据连续无重复:
总结:
总的来说unordered_map和unordered_set要比map和set的性能要好的,但是也并不是一定的,当数据量很大的时候,扩容重新哈希是有消耗的。
文档链接->unordered_map文档
我们使用unordered1_map的接口函数:
void test_unordered_map()
{
string arr[] = { "梨","梨","苹果","梨","西瓜","西瓜" };
unordered_map m;
for (auto& e : arr)
{
m[e]++;
}
for (auto& kv : m)
{
cout << kv.first << ":" << kv.second << endl;
}
}
int main()
{
test_unordered_map();
return 0;
}
总体来说,unordered_map和map的用法差不多,但是他们的效率有所不同。
ps:
红黑树高度略高一些,但是跟AVL树是同一数量级,对于现代计算机没有差别但是红黑树相对而言近似平衡,旋转少。
我们已学过的查找 :
理想的查找方法:
我们如何一一将键值转换为对应的关键码值,并映射到对应序号的存储位置呢?
直接建立映射关系问题:
此时我们就需要一个函数对特殊非整数类型的数据进行处理,使其返回一个特定的整数,这个函数我们叫做 —— 哈希函数。
常见的哈希函数:
1、直接定址法(常用)
2、除留余数法(常用)
3、其余常见但不常用的还有 平方取中法、折叠法、随机数法、数学分析法等。
字符串也有自己类型的哈希函数----->参考文献(了解即可)
不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。
按照上述哈希函数计算出键值对应的关键码值,但是算出来的这些码值当中,有很大的可能会出现关键码值相同的情况,这种情况就叫作:哈希冲突。
线性探测:
从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
插入:
查找:
删除:
那怎么办呢?
即通过对每一个数据加上一个标识状态即可:
线性探测的缺点:
所以我们引入了二次探测:跳跃着找空位置,是相对上面方法的优化,使得数据可能不那么拥堵。
所以经过上面的介绍,我们想自己实现一个闭散列需要注意以下的几点:
第一点和第二点我们已经在上文介绍过了,这里我们应用的就是开放定址法和线性探测。
查询资料:
首先根据上文我们知道闭散列哈希表并不能太满:
n
来记录存储数据的个数散列表的载荷因子定义为: a = 填入表中的元素个数 / 散列表的长度
所以我们要控制一下负载因子:
有人会说直接resize扩容就行了啊。但是,你没注意到一个问题:
我在刚刚那个表中又插入了13,这时按理说应该扩容了防止效率变低。
假如我扩容到20格,我想找13的时候根据哈希函数,13不应该在编号是13的格子中吗?但是我是存储在3中啊,这就矛盾了...
所以扩容时我们不能直接将原来的数据拷贝过去:
如图所示,也不是特别麻烦
直接建立一个新表,然后遍历旧表一次映射到新表中
不过扩容时会有不少的消耗
补充:
从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
很显然,哈希桶中每个元素是个地址,所以哈希桶的底层原理就是一个指针数组,每个结点再挂着一个单链表,这样冲突就很容易解决了。
还是老问题,
这里我们还是选择适时扩容,那什么情况扩容呢?
很显然我们更倾向于方案二:
方案一写法更简单,但是不断递归开销更大。
注:哈希桶结点插入,我们一般采用头插的方法,因为对于每一个链表,如果尾插,需要先找到尾,增加了时间消耗,头插的话消耗更低。
因为开散列是一个指针数组,涉及到空间的开辟,所以析构函数我们要自己完善:
~HashTable()
{
for (auto& cur : _tables)
{
while (cur)
{
Node* next = cur->_next;
delete cur;
cur = next;
}
cur = nullptr;
}
}
namespace OpenAddress
{
enum State
{
EMPTY,
EXIST,
DELETE
};
template
struct HashData
{
pair _kv;
State _state = EMPTY;
};
template
class HashTable
{
public:
HashData* Find(const K& key)
{
if (_tables.size() == 0)
{
return nullptr;
}
size_t hashi = key % _tables.size();
//线性探测
size_t i = 1;
size_t index = hashi;
while (_tables[index]._state != EMPTY)
{
if (_tables[index]._state == EXIST
&& _tables[index]._kv.first == key)
{
return &_tables[index];
}
index = hashi + i;
index %= _tables.size();
++i;
if (index == hashi)
{
break;
}
}
return nullptr;
}
bool Erase(const K& key)
{
HashData* ret = Find(key);
if (ret)
{
ret->_state = DELETE;
--_n;
return true;
}
else
{
return false;
}
}
bool Insert(const pair& kv)
{
if (Find(kv.first))
{
return false;
}
if (_tables.size() == 0 || _n * 10 / _tables.size() >= 7)
{
size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 2;
HashTable newht;
newht._tables.resize(newsize);
for (auto& data : _tables)
{
if (data._state == EXIST)
{
newht.Insert(data._kv);
}
}
_tables.swap(newht._tables);
}
size_t hashi = kv.first % _tables.size();
//线性探测
size_t i = 1;
size_t index = hashi;
while (_tables[index]._state == EXIST)
{
index = hashi + i;
index %= _tables.size();
++i;
}
_tables[index]._kv = kv;
_tables[index]._state = EXIST;
_n++;
return true;
}
private:
vector> _tables;
size_t _n = 0;//存储的数据个数
};
void TestHashTable2()
{
HashTable ht;
int arr[] = { 1,2,2,3,3,3,4,4,4,4,5,9,2,3 };
for (auto& e : arr)
{
ht.Insert(make_pair(e, e));
}
}
void TestHashTable1()
{
int a[] = { 3, 33, 2, 13, 5, 12, 1002 };
HashTable ht;
for (auto e : a)
{
ht.Insert(make_pair(e, e));
}
ht.Insert(make_pair(15, 15));
if (ht.Find(13))
{
cout << "13在" << endl;
}
else
{
cout << "13不在" << endl;
}
ht.Erase(13);
if (ht.Find(13))
{
cout << "13在" << endl;
}
else
{
cout << "13不在" << endl;
}
}
}
namespace HashBacket
{
template
struct HashNode
{
HashNode* _next;
pair _kv;
HashNode(const pair& kv)
:_next(nullptr)
, _kv(kv)
{}
};
template
class HashTable
{
typedef HashNode Node;
public:
~HashTable()
{
for (auto& cur : _tables)
{
while (cur)
{
Node* next = cur->_next;
delete cur;
cur = next;
}
cur = nullptr;
}
}
Node* Find(const K& key)
{
if (_tables.size() == 0)
{
return nullptr;
}
size_t hashi = key % _tables.size();
Node* cur = _tables[hashi];
while (cur)
{
if (cur->_kv.first == key)
{
return cur;
}
cur = cur->_next;
}
return nullptr;
}
bool Erase(const K& key)
{
size_t hashi = key % _tables.size();
Node* prev = nullptr;
Node* cur = _tables[hashi];
while (cur)
{
if (cur->_kv.first == key)
{
if(prev==nullptr)
{
_tables[hashi] = cur->_next;
}
else
{
prev->_next = cur->_next;
}
delete cur;
return true;
}
else
{
prev = cur;
cur = cur->_next;
}
}
return false;
}
bool Insert(const pair& kv)
{
if (Find(kv.first))
{
return false;
}
if (_n == _tables.size())
{
size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 2;
vector newtables(newsize, nullptr);
for (auto& cur : _tables)
{
while (cur)
{
Node* next = cur->_next;
size_t hashi = cur->_kv.first % newtables.size();
//头插到新表
cur->_next = newtables[hashi];
newtables[hashi] = cur;
cur = next;
}
}
_tables.swap(newtables);
}
size_t hashi = kv.first % _tables.size();
// 头插
Node* newnode = new Node(kv);
newnode->_next = _tables[hashi];
_tables[hashi] = newnode;
++_n;
return true;
}
private:
vector _tables;
size_t _n = 0;
};
void TestHashTable1()
{
int a[] = { 3, 33, 2, 13, 5, 12, 1002 };
HashTable ht;
for (auto e : a)
{
ht.Insert(make_pair(e, e));
}
ht.Insert(make_pair(15, 15));
ht.Insert(make_pair(25, 25));
ht.Insert(make_pair(35, 35));
ht.Insert(make_pair(45, 45));
}
void TestHashTable2()
{
int a[] = { 3, 33, 2, 13, 5, 12, 1002 };
HashTable ht;
for (auto e : a)
{
ht.Insert(make_pair(e, e));
}
ht.Erase(12);
ht.Erase(3);
ht.Erase(33);
}
}
感谢你的阅读!