【C++】unordered_map在Windows和Linux上的不同行为

我目前手头上的项目,需要编译在板端Linux上运行,但是日常daily调试多在Windows上开发。这就涉及到同一份代码在多平台上的编译个运行。有一次遇到了一个奇怪的现象:跑同样的一份代码,Windows和Linux出来的结果是不一致的。最终确定到不一致的原因出现在unordered_map上,就把这次记录总结下来。

这次不一致发生在:处理一个状态序列的投票操作。从编程的角度而言,最适合投票操作的容器就是键值对,key放置投票的内容,value放置投票的次数。在C++中,STL提供了两个相关容器:map和unordered_map。在代码上选择了unordered_map来实现。


问题复现

我把这个问题简化:假设车的类型有四种情况,分别为UNKNOWN、SMALL、MIDDLE、BIG。现有15次的估计,以出现次数最多的类型作为其最终类型。代码非常简单:

#include 
#include 
#include 

int main()
{
  std::unordered_map<std::string, int> vehs;
  vehs["UNKNOWN"] = 5;
  vehs["SMALL"] = 3;
  vehs["MIDDLE"] = 5;
  vehs["BIG"] = 2;

  std::string max_type;
  int max_times = -1;

  auto iter = vehs.begin();
  for (; iter != vehs.end(); ++iter) {
    if (iter->second > max_times) {
      max_times = iter->second;
      max_type = iter->first;
    }
    std::cout << iter->first << " ";
  }
  std::cout << std::endl;

  std::cout << "max_type : " << max_type << std::endl;

  return 0;
}

在Windows平台下,编译并运行代码:

BIG UNKNOWN SMALL MIDDLE
max_type : UNKNOWN

在Linux平台下,编译并运行代码:

BIG MIDDLE SMALL UNKNOWN
max_type : MIDDLE

可以看到,在Windows和Linux两个平台下的运行结果中,出现次数最多的车的类型,一个为UNKNOWN,一个为MIDDLE。主要原因是这两种类型都是5次(最多)。这时,unordered_map的遍历顺序就很重要了,这将直接关系到最终的输出结果。通过打印结果可以看到,两个平台下的遍历顺序是不一致的。

在C++中,STL提供了两个键值对容器:map和unordered_map。上面的代码,采用的是unordered_map容器,如果将其改成map容器呢?还会发生这种不一致的结果么?

std::map<std::string, int> vehs;    // 将unordered_map修改为map

此时再在Windows和Linux平台下,分别编译并运行代码,最终的输出都是一致的:

BIG MIDDLE SMALL UNKNOWN
max_type : MIDDLE

也就是说,这种平台不一致性只发生在unordered_map容器上,而不发生在map容器上


原因分析

map和unordered_map分别在Windows和Linux上的不同运行结果,主要体现在遍历顺序上。对于map而言,两个平台上的遍历顺序是一致的;而对于unordered_map而言,两个平台上的遍历顺序是不一致的。

遍历顺序的不同,究其根本,主要体现在其内部构造的不同

map的内部构造:

  • map的内部实现了一个红黑树(红黑树是非严格平衡二叉搜索树,而AVL是严格平衡二叉搜索树),红黑树具有自动排序的功能,因此map内部的所有元素都是有序的。红黑树的每一个节点都代表着map的一个元素。因此,对于map进行的查找,删除,添加等一系列的操作都相当于是对红黑树进行的操作。

unordered_map的内部构造:

  • unordered_map的内部实现了一个哈希表(也叫散列表,通过把关键码值映射到Hash表中一个位置来访问记录,查找的时间复杂度可达到O(1),其在海量数据处理中有着广泛应用)。因此,其元素的排列顺序是无序的。

两者在运行效率和占用内存的对比:

  • 运行效率方面:unordered_map最高,而map效率较低,但提供了稳定效率和有序的序列
  • 占用内存方面:map内存占用略低,unordered_map内存占用略高,而且是线性成比例的

需要无序容器,快速查找删除,不担心略高的内存时可以选择unordered_map;需要有序容器稳定查找删除效率,内存很在意时候用map。

因此,如果需要使用map,那么key需要定义operator<,用于进行有序的排序;如果需要使用unordered_map,那么key需要定义hash_value函数并且定义operator==,用于hash值的计算。而:

  • 当使用map时,Windows和Linux对于operator<的定义都是一致的
  • 当使用unordered_map时,Windows和Linux对于operator==的定义都是一致的,对于hash_value函数的定义是不一致的

从而,在使用unordered_map时,Windows和Linux使用两种不同的哈希函数,产生不同的哈希码,从而依次产生不同的存储区放置,导致在迭代时产生不同的顺序


相关阅读

  • c++ - Windows 和 Linux 上 std::unordered_map 容器的不同行为

你可能感兴趣的:(《编程语言》C/C++语言笔记,c++,windows,linux,map,unordered_map)