_GR

从C语言到C++_31(unordered_set和unordered_map介绍+哈希桶封装)

1. unordered_set和unordered_map

1.1 unordered_map

1.2 unordered_set

1.3 unordered系列写OJ题

961. 在长度 2N 的数组中找出重复 N 次的元素 - 力扣（LeetCode）

349. 两个数组的交集 - 力扣（LeetCode）

217. 存在重复元素 - 力扣（LeetCode）

884. 两句话中的不常见单词 - 力扣（LeetCode）

2. 实现unordered_set和unordered_map

2.1 哈希桶的迭代器

2.2 封装unordered_set和unordered_map

完整unordered_map.h

完整unordered_set.h

2.3 修改哈希桶

完整HashTable.h：

Test.cpp:

3. 题外话+笔试选择题

本篇完。

1. unordered_set和unordered_map

在C++98中，STL提供了底层为红黑树结构的一系列关联式容器，在查询时效率可达到（logN），

即最差情况下需要比较红黑树的高度次，当树中的节点非常多时，查询效率也不理想。最好的查询是，进行很少的比较次数就能够将元素找到，因此在C++11中，STL又提供了4个unordered系列的关联式容器，这四个容器与红黑树结构的关联式容器使用方式基本类似，只是其底层结构不同，其底层结构是前一篇讲的哈希结构，本文中只对unordered_set和unordered_map进行介绍，

unordered_multiset和unordered_multimap可查看文档介绍。

unordered系列和我们前面学习的map和set几乎一模一样，只是多了前面的unordered。

正如它的名字一样，unordered系列和map/set比起来，unordered系列打印出来的数据是无序的。

1.1 unordered_map

1. unordered_map是存储键值对的关联式容器，其允许通过keys快速的索引到与其对应的value。
2. 在unordered_map中，键值通常用于惟一地标识元素，而映射值是一个对象，其内容与此
键关联。键和映射值的类型可能不同。
3. 在内部, unordered_map没有对按照任何特定的顺序排序, 为了能在常数范围内找到key所对应的value，unordered_map将相同哈希值的键值对放在相同的桶中。
4. unordered_map容器通过key访问单个元素要比map快，但它通常在遍历元素子集的范围迭代方面效率较低。
5. unordered_maps实现了直接访问操作符(operator[])，它允许使用key作为参数直接访问value。
6. 它的迭代器至少是前向迭代器。

常用接口函数：可以参考map的函数使用，还有一些关于哈希的接口后面再讲解

1.2 unordered_set

1、无序集是一种容器，它以不特定的顺序存储惟一的元素，并允许根据元素的值快速检索单个元素。
2、在unordered_set中，元素的值同时是唯一标识它的键。键是不可变的，只可增删，不可修改
3、在内部，unordered_set中的元素没有按照任何特定的顺序排序，而是根据它们的散列值组织成桶，从而允许通过它们的值直接快速访问单个元素(平均时间复杂度为常数)。
4、unordered_set容器比set容器更快地通过它们的键访问单个元素，尽管它们在元素子集的范围迭代中通常效率较低。
5、容器中的迭代器至少是前向迭代器。

unordered_set 容器提供了和 unordered_map 相似的能力，

但 unordered_set 可以用保存的元素作为它们自己的键。

T 类型的对象在容器中的位置由它们的哈希值决定，因而需要定义一个 Hash< T > 函数。

基本类型可以省去Hash< T >方法。不能存放重复元素。

可指定buckets个数，可进行初始化，也可后期插入元素

常用接口函数：可以参考set的函数使用，还有一些关于哈希的接口后面再讲解

1.3 unordered系列写OJ题

（困难题我唯唯诺诺，简单题我多次重拳出击）

961. 在长度 2N 的数组中找出重复 N 次的元素 - 力扣（LeetCode）

难度简单

给你一个整数数组 nums ，该数组具有以下属性：

nums.length == 2 * n.
nums 包含 n + 1 个 不同的 元素
nums 中恰有一个元素重复 n 次

找出并返回重复了 n 次的那个元素。

示例 1：

输入：nums = [1,2,3,3]
输出：3

示例 2：

输入：nums = [2,1,2,5,3,2]
输出：2

示例 3：

输入：nums = [5,1,5,2,5,3,5,4]
输出：5

提示：

2 <= n <= 5000
nums.length == 2 * n
0 <= nums[i] <= 10^4
nums 由 n + 1 个 不同的 元素组成，且其中一个元素恰好重复 n 次

class Solution {
public:
    int repeatedNTimes(vector& nums) {

    }
};

解析代码：（和map一样用）（以下代码改成map也能过，OJ平均效率低一些，后面就知道了）

class Solution {
public:
    int repeatedNTimes(vector& nums) {
        unordered_map countMap;
        for(const auto& e : nums)
        {
            countMap[e]++;
        }

        unordered_map Map;
        for(const auto& kv : countMap)
        {
            if(kv.second == nums.size() / 2)
            {
                return kv.first;
            }
        }
        return -1; // 不会走到这，顺便返回一个值
    }
};

349. 两个数组的交集 - 力扣（LeetCode）

难度简单

给定两个数组 nums1 和 nums2 ，返回 它们的交集 。输出结果中的每个元素一定是唯一的。我们可以 不考虑输出结果的顺序 。

示例 1：

输入：nums1 = [1,2,2,1], nums2 = [2,2]
输出：[2]

示例 2：

输入：nums1 = [4,9,5], nums2 = [9,4,9,8,4]
输出：[9,4]
解释：[4,9] 也是可通过的

提示：

1 <= nums1.length, nums2.length <= 1000
0 <= nums1[i], nums2[i] <= 1000

class Solution {
public:
    vector intersection(vector& nums1, vector& nums2) {

    }
};

解析代码：（这题在从C语言到C++_26讲过了）（当时用set排序了，现在不排序写写）

当时是力扣题解2，现在是力扣题解1：使用哈希集合存储元素，则可以在O（1）的时间内判断一个元素是否在集合中，从而降低时间复杂度。首先使用两个集合分别存储两个数组中的元素，然后遍历较小的集合（顺便遍历一个也行，就是效率低点），判断其中的每个元素是否在另一个集合中，如果元素也在另一个集合中，则将该元素添加到返回值。

该方法的时间复杂度可以降低到O（m+n）。

class Solution {
public:
    vector intersection(vector& nums1, vector& nums2) {
        unordered_set s1(nums1.begin(),nums1.end()); // 去重
        unordered_set s2(nums2.begin(),nums2.end());

        vector retV;
        if(s1.size() <= s2.size())
        {
            for(const auto& e : s1)
            {
                if(s2.find(e) != s2.end())
                {
                    retV.push_back(e);
                }
            }
        }
        else
        {
            for(const auto& e : s2)
            {
                if(s1.find(e) != s1.end())
                {
                    retV.push_back(e);
                }
            }
        }
        return retV;
    }
};

217. 存在重复元素 - 力扣（LeetCode）

难度简单

给你一个整数数组 nums 。如果任一值在数组中出现 至少两次 ，返回 true ；如果数组中每个元素互不相同，返回 false 。

示例 1：

输入：nums = [1,2,3,1]
输出：true

示例 2：

输入：nums = [1,2,3,4]
输出：false

示例 3：

输入：nums = [1,1,1,3,3,4,3,2,4,2]
输出：true

提示：

1 <= nums.length <= 10^5
-10^9 <= nums[i] <= 10^9

class Solution {
public:
    bool containsDuplicate(vector& nums) {

    }
};

解析代码：（看看返回值，前两个和模拟实现set的一样）

class Solution {
public:
    bool containsDuplicate(vector& nums) {
        unordered_set s;
        for(const auto& e : nums)
        {
            if(s.insert(e).second == false)
            {
                return true;
            }
        }
        return false;
    }
};

884. 两句话中的不常见单词 - 力扣（LeetCode）

难度简单

句子是一串由空格分隔的单词。每个单词仅由小写字母组成。

如果某个单词在其中一个句子中恰好出现一次，在另一个句子中却 没有出现 ，那么这个单词就是 不常见的 。

给你两个句子 s1 和 s2 ，返回所有 不常用单词 的列表。返回列表中单词可以按 任意顺序 组织。

示例 1：

输入：s1 = "this apple is sweet", s2 = "this apple is sour"
输出：["sweet","sour"]

示例 2：

输入：s1 = "apple apple", s2 = "banana"
输出：["banana"]

提示：

1 <= s1.length, s2.length <= 200
s1 和 s2 由小写英文字母和空格组成
s1 和 s2 都不含前导或尾随空格
s1 和 s2 中的所有单词间均由单个空格分隔

class Solution {
public:
    vector uncommonFromSentences(string s1, string s2) {

    }
};

解析代码：（等价于：在两个句子中一共只出现一次的单词。）

大家可以百度stringstream类用法，这里讲一个小技巧
可以将字符串中每个单词按空格隔开。

class Solution {
public:
    vector uncommonFromSentences(string s1, string s2) {
        unordered_map m;
        vector retV;

        stringstream a, b; // 创建流对象
        string s;
        a << s1;  // 向流中传值
        b << s2;

        while (a >> s)
        {
            m[s]++;  //流向s中写入值，并且空格会自断开
            //cout << s << "+";
        }
        while (b >> s)
        {
            m[s]++;
        }
        for (const auto& m : m)
        {
            if (m.second == 1)
            {
                retV.push_back(m.first); //只需要看出现次数是1的单词
            }
        }
        return retV;
    }
};

如果解开注释：

2. 实现unordered_set和unordered_map

这里用我们上一篇写的开散列哈希桶的代码，闭散列不用就删掉，去掉命名空间复制一份过来：

#pragma once

#include 
#include 
using namespace std;

template
struct HashNode
{
	pair _kv;
	HashNode* _next; // 不用存状态栏了，存下一个结点指针

	HashNode(const pair& kv)
		:_kv(kv)
		, _next(nullptr)
	{}
};

template
struct HashFunc // 可以把闭散列的HashFunc放在外面直接用，但是这就不放了
{
	size_t operator()(const K& key)
	{
		return (size_t)key; // 负数，浮点数，指针等可以直接转，string不行
	}
};

template<>
struct HashFunc // 上面的特化
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (const auto& ch : key)
		{
			val *= 131;
			val += ch;
		}

		return val;
	}
};

template>
class HashTable
{
public:
	typedef HashNode Node;

	~HashTable()
	{
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			Node* cur = _tables[i];
			while (cur)
			{
				Node* next = cur->_next;
				delete cur;
				cur = next;
			}
			_tables[i] = nullptr;
		}
	}

	Node* Find(const K& key)
	{
		if (_tables.size() == 0)
		{
			return nullptr;
		}

		Hash hs;
		size_t hashi = hs(key) % _tables.size();
		Node* cur = _tables[hashi];
		while (cur)
		{
			if (cur->_kv.first == key)
			{
				return cur;
			}
			cur = cur->_next;
		}
		return nullptr;
	}

	inline size_t __stl_next_prime(size_t n)
	{
		static const size_t __stl_num_primes = 28;
		static const size_t __stl_prime_list[__stl_num_primes] =
		{
			53, 97, 193, 389, 769,
			1543, 3079, 6151, 12289, 24593,
			49157, 98317, 196613, 393241, 786433,
			1572869, 3145739, 6291469, 12582917, 25165843,
			50331653, 100663319, 201326611, 402653189, 805306457,
			1610612741, 3221225473, 4294967291
		};

		for (size_t i = 0; i < __stl_num_primes; ++i)
		{
			if (__stl_prime_list[i] > n)
			{
				return __stl_prime_list[i];
			}
		}

		return -1; // 不会走到这，随便返回一个值
	}

	bool Insert(const pair& kv)
	{
		if (Find(kv.first))
		{
			return false;
		}

		Hash hs;
		if (_size == _tables.size()) // 负载因子到1就扩容
		{
			//size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
			vector newTables;
			//newTables.resize(newSize, nullptr);
			newTables.resize(__stl_next_prime(_tables.size()), nullptr); //取素数，前两注释改成这一条

			for (size_t i = 0; i < _tables.size(); ++i) // 旧表中节点移动映射新表
			{
				Node* cur = _tables[i];
				while (cur)
				{
					Node* next = cur->_next;

					size_t hashi = hs(cur->_kv.first) % newTables.size();
					cur->_next = newTables[hashi];
					newTables[hashi] = cur;

					cur = next;
				}

				_tables[i] = nullptr;
			}

			_tables.swap(newTables);
		}

		size_t hashi = hs(kv.first) % _tables.size(); // 哈希映射
		Node* newnode = new Node(kv); // 头插
		newnode->_next = _tables[hashi];
		_tables[hashi] = newnode;
		++_size;
		return true;
	}

	bool Erase(const K& key)
	{
		if (_tables.size() == 0) // 防止除零错误
		{
			return false;
		}

		Hash hs;
		size_t hashi = hs(key) % _tables.size();
		Node* cur = _tables[hashi];
		Node* prev = nullptr;
		while (cur)
		{
			if (cur->_kv.first == key)
			{
				if (prev == nullptr) // 头插，先把指针数组存的指针指向cur的下一个
				{
					_tables[hashi] = cur->_next;
				}
				else // 中间删
				{
					prev->_next = cur->_next;
				}
				delete cur; // 统一在这delete
				return true;
			}

			prev = cur; // 往后走
			cur = cur->_next;
		}
		return false; // 没找到
	}

	size_t Size() // 存的数据个数
	{
		return _size;
	}

	size_t TablesSize() // 表的长度
	{
		return _tables.size();
	}

	size_t BucketNum() // 桶的个数
	{
		size_t num = 0;
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			if (_tables[i]) // 如果不是空就有桶
			{
				++num;
			}
		}
		return num;
	}

	size_t MaxBucketLenth() // 最长桶的长度
	{
		size_t maxLen = 0;
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			size_t len = 0;
			Node* cur = _tables[i];
			while (cur)
			{
				++len;
				cur = cur->_next;
			}
			if (len > maxLen)
			{
				maxLen = len;
			}
		}
		return maxLen;
	}

protected:
	vector _tables; // 指针数组
	size_t _size;
};

有了封装set和map的和学习了哈希的经验，直接写出框架：

UnorderedSet.h：

#pragma once

#include "HashTable.h"

namespace rtx
{
	template
	class unordered_map
	{
		struct SetKeyOfT
		{
			const K& operator()(const K& key)
			{
				return key;
			}
		};
	public:

	protected:
		HashTable _ht;
	};
}

UnorderedMap.h：

#pragma once

#include "HashTable.h"

namespace rtx
{
	template>
	class unordered_map
	{
		struct MapKeyOfT
		{
			const K& operator()(const pair& kv)
			{
				return kv.first;
			}
		};
	public:

	protected:
		HashTable, Hash, MapKeyOfT> _ht;
	};

}

用命名空间和STL库区分，第二个参数对于unordered_set是key，对于unordered_map是piar，

现在应该把ashNode的两个参数改为一个参数T，_pair 改为 _data

再把HashTable的第二个参数改为T，再加一个获取key的仿函数：

（这里不能在第三个仿函数给默认的了）

2.1 哈希桶的迭代器

迭代器是所有容器必须有的，先来看迭代器的++是如何实现的：

如上图所示，一个哈希表，其中有四个哈希桶，迭代器是it。

++it操作：

如果it不是某个桶的最后一个元素（桶里数据下一个不为空），则it指向下一个节点。

如果it是桶的最后一个元素（桶里数据下一个为空），则it指向下一个桶的头节点。

要想实现上面的操作，迭代器中不仅需要一个_node来记录当前节点，

还需要一个哈希表的指针，以便找下一个桶，代码如下：

（顺便写迭代器中的其他操作，如解引用，箭头，以及相等等运算符的重载就不再详细介绍了：）

template
class HashTable; // 前置声明

template
class __HashIterator
{
public:
	typedef HashNode Node;
	typedef HashTable HT;
	typedef __HashIterator Self;

	Node* _node; // 数据结点
	HT* _pht; // 哈希表指针

	__HashIterator(Node* node, HT* pht)
		:_node(node)
		, _pht(pht)
	{}

	Self& operator++()
	{
		if (_node->_next) // 不是桶中的最后一个数据
		{
			_node = _node->_next;
		}
		else // 是桶中的最后一个数据，找下一个桶
		{
			Hash hs;
			KeyOfT kot;
			size_t i = hs(kot(_node->_data)) % _pht->_tables.size() + 1;//没+1是当前桶位置
			for (; i < _pht->_tables.size(); ++i)
			{
				if (_pth->tables[i]) // 向后迭代找到了有桶的位置
				{
					_node = _pth->tables[i]; // 把这个位置给_node
					break;
				}
			}
			if (_pht == _tables.size()) // 后面都没桶了
			{
				_node = nullptr;
			}
		}
		return *this; // this调用该函数的对象（迭代器），指向下一个后解引用返回
	}

	T& operator*()
	{
		return _node->_data;
	}

	T* operator->()
	{
		return &_node->_data;
	}

	bool operator!=(const Self& s) const
	{
		return s._node != _node;
	}

	bool operator==(const Self& s) const
	{
		return s._node == _node;
	}
};

t不是处于某个桶的末尾，直接指向下一个节点。

当it是某个桶的末尾时，指向下一个桶。

首先需要确定当前桶的位置：
使用KeyOfT仿函数获取当前数据的key值(因为不知道是map还是set在调用)。
再使用Hash仿函数将key值转换成可以模的整形(因为不知道key是整形还是字符串再或者其他自定义类型)。

然后开始寻找下一个桶：
从当前哈希表下标开始向后寻找，直到找到下一个桶，将桶的头节点地址赋值给_node。
如果始终没有找到，说明没有桶了，也就是没有数据了，it指向end，这里使用空指针来代替end。将++后的迭代器返回。

迭代器中有一个成员变量是哈希表的指针，如上图所示，

所以在迭代器中typedef了HashTable成为 HT，方便我们使用。

根据我们前面实现迭代器的经验，迭代器其实是封装在Hashtable中的，也就是说，在HashTable中也会typedef迭代器：此时HashTable和HashIterator就构成了相互typedef的关系。哈希表和迭代器类的定义势必会有一个先后顺序，这里在定义的时候，在代码顺序上就是先定义迭代器，再定义的哈希表。此时迭代器在typedef的时候就找不到哈希表的定义，因为编译器只会向上寻找而不会向下寻找。所以必须在HashIterator类前面先声明一下HashTable类，这种操作被叫做前置声明。

前置声明一定要放在类外面，如果放在迭代器类里面，编译器只会在迭代器的命名空间中寻找哈希表的定义，这样是找不到的。

前置声明放在类外面的时候，编译器会在整个命名空间中寻找哈希表的定义，就可以找到。

在++迭代器的时候，会使用到哈希表指针，哈希表指针又会使用到HashTable中的_tables。

HashTable中的_tables是保护成员，在类外是不能访问的。

解决这个问题可以在HashTable中写一个公有的访问函数，也可以采用友元，这里用下友元。

类模板的友元声明需要写模板参数，在类名前面加friend关键字。

（迭代器要访问HashTable的保护，所以迭代器要成为HashTable的友元）

2.2 封装unordered_set和unordered_map

有了前面的经验（map的方括号重载要改insert的返回值），这里先把完整的unordered_set.h和

unordered_map.h写出来，看看需要怎么改。封装就是套一层，还是很容易的：

完整unordered_map.h

#pragma once

#include "HashTable.h"

namespace rtx
{
	template>
	class unordered_map
	{
		struct MapKeyOfT
		{
			const K& operator()(const pair& kv)
			{
				return kv.first;
			}
		};
	public:
		typedef typename HashTable, Hash, MapKeyOfT>::iterator iterator;

		iterator begin()
		{
			return _ht.begin();
		}

		iterator end()
		{
			return _ht.end();
		}

		pair insert(const pair& kv)
		{
			return _ht.Insert(kv); // 先看下面，所以insert要返回插入后的键值对
		}

		bool find(const K& key)
		{
			return _ht.Find(key);
		}

		bool erase(const K& key)
		{
			return _ht.Erase(key);
		}

		V& operator[](const K& key) // 根据原功能，返回的是键值对中key对应的value的引用。
		{   // 当key不存在时，operator[]用默认value与key构造键值对然后插入
			pair ret = _ht.Insert(make_pair(key, V()));
			return ret.first->second;
		}

	protected:
		HashTable, Hash, MapKeyOfT> _ht;
	};
}

完整unordered_set.h

#pragma once

#include "HashTable.h"

namespace rtx
{
	template>
	class unordered_set
	{
		struct SetKeyOfT
		{
			const K& operator()(const K& key)
			{
				return key;
			}
		};
	public:
		typedef typename HashTable::iterator iterator;

		iterator begin()
		{
			return _ht.begin();
		}

		iterator end()
		{
			return _ht.end();
		}

		pair insert(const K& key) //和unordered_map保持一致
		{
			return _ht.Insert(key);
		}

		bool find(const K& key)
		{
			return _ht.Find(key);
		}

		bool erase(const K& key)
		{
			return _ht.Erase(key);
		}
	protected:
		HashTable _ht;
	};
}

2.3 修改哈希桶

先给哈希桶的模板参数增加两个仿函数，用typedef封装迭代器，并给迭代器传对应的模板参数。

还需要在哈希表中增加获取迭代器起始位置和结束位置的接口：

在获取其实位置时，需要从头开始遍历哈希表项，寻找到第一个桶的头节点作为起始位置。
使用空指针代替迭代器的结束位置。
在构造迭代器时，直接传this指针去定义迭代器中的哈希表指针。

在插入中，凡是使用到key值以及用key取模的地方，都要用仿函数取获得。包括删除和删除中也是，插入之前要查找下，先把查找改了：

让其返回迭代器，如果存在，返回key所在位置的迭代器，如果不存在，返回末尾的迭代器。

	iterator Find(const K& key)
	{
		if (_tables.size() == 0)
		{
			return end();
		}

		Hash hs;
		KeyOfT kot;
		size_t hashi = hs(key) % _tables.size();
		Node* cur = _tables[hashi];
		while (cur)
		{
			if (kot(cur->_data) == key)
			{
				return iterator(cur,this);
			}
			cur = cur->_next;
		}
		return end();
	}

然后修改哈希表的Inerst，返回由迭代器和布尔值组成的键值对。

先进行查找，如果存在，则返回key所在位置的迭代器和false组成的键值对。
查找结构不存在，则返回插入新节点后key所在位置的迭代器和true组成的键值对。

	pair Insert(const T& data)
	{
		KeyOfT kot;
		iterator ret = Find(kot(data));
		if (ret != end())
		{
			return make_pair(ret, false);
		}

		Hash hs;
		if (_size == _tables.size()) // 负载因子到1就扩容
		{
			//size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
			vector newTables;
			//newTables.resize(newSize, nullptr);
			newTables.resize(__stl_next_prime(_tables.size()), nullptr); //取素数，前两注释改成这一条

			for (size_t i = 0; i < _tables.size(); ++i) // 旧表中节点移动映射新表
			{
				Node* cur = _tables[i];
				while (cur)
				{
					Node* next = cur->_next;

					size_t hashi = hs(kot(cur->_data) % newTables.size();
					cur->_next = newTables[hashi];
					newTables[hashi] = cur;

					cur = next;
				}

				_tables[i] = nullptr;
			}

			_tables.swap(newTables);
		}

		size_t hashi = hs((kot(data) % _tables.size(); // 哈希映射
		Node* newnode = new Node(data); // 头插
		newnode->_next = _tables[hashi];
		_tables[hashi] = newnode;
		++_size;
		return make_pair(iterator(newnode, this), true);
	}

删除只需在移除用上KeyOfT仿函数，然后就改完了，程序就能跑起来了：

完整HashTable.h：

#pragma once

#include 
#include 
using namespace std;

template
struct HashNode
{
	T _data;
	HashNode* _next; // 不用存状态栏了，存下一个结点指针

	HashNode(const T& data)
		:_data(data)
		, _next(nullptr)
	{}
};

template
struct HashFunc // 可以把闭散列的HashFunc放在外面直接用，但是这就不放了
{
	size_t operator()(const K& key)
	{
		return (size_t)key; // 负数，浮点数，指针等可以直接转，string不行
	}
};

template<>
struct HashFunc // 上面的特化
{
	size_t operator()(const string& key)
	{
		size_t val = 0;
		for (const auto& ch : key)
		{
			val *= 131;
			val += ch;
		}

		return val;
	}
};

template
class HashTable; // 前置声明

template
class __HashIterator
{
public:
	typedef HashNode Node;
	typedef HashTable HT;
	typedef __HashIterator Self;

	Node* _node; // 数据结点
	HT* _pht; // 哈希表指针

	__HashIterator(Node* node, HT* pht)
		:_node(node)
		, _pht(pht)
	{}

	Self& operator++()
	{
		if (_node->_next) // 不是桶中的最后一个数据
		{
			_node = _node->_next;
		}
		else // 是桶中的最后一个数据，找下一个桶
		{
			Hash hs;
			KeyOfT kot;
			size_t i = hs(kot(_node->_data)) % _pht->_tables.size() + 1;//没+1是当前桶位置
			for (; i < _pht->_tables.size(); ++i)
			{
				if (_pht->_tables[i]) // 向后迭代找到了有桶的位置
				{
					_node = _pht->_tables[i]; // 把这个位置给_node
					break;
				}
			}
			if (i == _pht->_tables.size()) // 后面都没桶了
			{
				_node = nullptr;
			}
		}
		return *this; // this调用该函数的对象（迭代器），指向下一个后解引用返回
	}

	T& operator*()
	{
		return _node->_data;
	}

	T* operator->()
	{
		return &_node->_data;
	}

	bool operator!=(const Self& s) const
	{
		return s._node != _node;
	}

	bool operator==(const Self& s) const
	{
		return s._node == _node;
	}
};

template
class HashTable
{
public:
	template
	friend class __HashIterator;

	typedef HashNode Node;
	typedef __HashIterator iterator;

	iterator begin()
	{
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			if (_tables[i])
			{
				return iterator(_tables[i], this); // 构造：(Node * node, HT * pht)
			}
		}
		return end();
	}

	iterator end()
	{
		return iterator(nullptr, this);
	}

	~HashTable()
	{
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			Node* cur = _tables[i];
			while (cur)
			{
				Node* next = cur->_next;
				delete cur;
				cur = next;
			}
			_tables[i] = nullptr;
		}
	}

	iterator Find(const K& key)
	{
		if (_tables.size() == 0)
		{
			return end();
		}

		Hash hs;
		KeyOfT kot;
		size_t hashi = hs(key) % _tables.size();
		Node* cur = _tables[hashi];
		while (cur)
		{
			if (kot(cur->_data) == key)
			{
				return iterator(cur,this);
			}
			cur = cur->_next;
		}
		return end();
	}

	inline size_t __stl_next_prime(size_t n)
	{
		static const size_t __stl_num_primes = 28;
		static const size_t __stl_prime_list[__stl_num_primes] =
		{
			53, 97, 193, 389, 769,
			1543, 3079, 6151, 12289, 24593,
			49157, 98317, 196613, 393241, 786433,
			1572869, 3145739, 6291469, 12582917, 25165843,
			50331653, 100663319, 201326611, 402653189, 805306457,
			1610612741, 3221225473, 4294967291
		};

		for (size_t i = 0; i < __stl_num_primes; ++i)
		{
			if (__stl_prime_list[i] > n)
			{
				return __stl_prime_list[i];
			}
		}

		return -1; // 不会走到这，随便返回一个值
	}

	pair Insert(const T& data)
	{
		KeyOfT kot;
		iterator ret = Find(kot(data));
		if (ret != end())
		{
			return make_pair(ret, false);
		}

		Hash hs;
		if (_size == _tables.size()) // 负载因子到1就扩容
		{
			//size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
			vector newTables;
			//newTables.resize(newSize, nullptr);
			newTables.resize(__stl_next_prime(_tables.size()), nullptr); //取素数，前两注释改成这一条

			for (size_t i = 0; i < _tables.size(); ++i) // 旧表中节点移动映射新表
			{
				Node* cur = _tables[i];
				while (cur)
				{
					Node* next = cur->_next;

					size_t hashi = hs(kot(cur->_data)) % newTables.size();
					cur->_next = newTables[hashi];
					newTables[hashi] = cur;

					cur = next;
				}

				_tables[i] = nullptr;
			}

			_tables.swap(newTables);
		}

		size_t hashi = hs(kot(data)) % _tables.size(); // 哈希映射
		Node* newnode = new Node(data); // 头插
		newnode->_next = _tables[hashi];
		_tables[hashi] = newnode;
		++_size;
		return make_pair(iterator(newnode, this), true);
	}

	bool Erase(const K& key)
	{
		if (_tables.size() == 0) // 防止除零错误
		{
			return false;
		}

		Hash hs;
		KeyOfT kot;
		size_t hashi = hs(key) % _tables.size();
		Node* cur = _tables[hashi];
		Node* prev = nullptr;
		while (cur)
		{
			if (kot(cur->_data) == key)
			{
				if (prev == nullptr) // 头插，先把指针数组存的指针指向cur的下一个
				{
					_tables[hashi] = cur->_next;
				}
				else // 中间删
				{
					prev->_next = cur->_next;
				}
				delete cur; // 统一在这delete
				return true;
			}

			prev = cur; // 往后走
			cur = cur->_next;
		}
		return false; // 没找到
	}

	size_t Size() // 存的数据个数
	{
		return _size;
	}

	size_t TablesSize() // 表的长度
	{
		return _tables.size();
	}

	size_t BucketNum() // 桶的个数
	{
		size_t num = 0;
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			if (_tables[i]) // 如果不是空就有桶
			{
				++num;
			}
		}
		return num;
	}

	size_t MaxBucketLenth() // 最长桶的长度
	{
		size_t maxLen = 0;
		for (size_t i = 0; i < _tables.size(); ++i)
		{
			size_t len = 0;
			Node* cur = _tables[i];
			while (cur)
			{
				++len;
				cur = cur->_next;
			}
			if (len > maxLen)
			{
				maxLen = len;
			}
		}
		return maxLen;
	}

protected:
	vector _tables; // 指针数组
	size_t _size;
};

Test.cpp:

#include "UnorderedSet.h"
#include "UnorderedMap.h"

namespace rtx
{
	void test_unordered_set()
	{
		unordered_set s;
		s.insert(2);
		s.insert(3);
		s.insert(1);
		s.insert(2);
		s.insert(5);

		unordered_set::iterator it = s.begin();
		//auto it = s.begin();
		while (it != s.end())
		{
			cout << *it << " ";
			++it;
		}
		cout << endl << endl;;
	}

	void test_unordered_map()
	{
		unordered_map dict;
		dict.insert(make_pair("sort", "排序"));
		dict.insert(make_pair("string", "字符串"));
		dict.insert(make_pair("left", "左边"));

		unordered_map::iterator it = dict.begin();
		while (it != dict.end())
		{
			cout << it->first << ":" << it->second << endl;
			++it;
		}
		cout << endl;

		unordered_map countMap;
		string arr[] = { "苹果", "西瓜", "苹果", "西瓜", "苹果", "苹果", "西瓜", "苹果", "香蕉", "苹果", "香蕉" };
		for (const auto& e : arr)
		{
			countMap[e]++;
		}

		for (const auto& kv : countMap)
		{
			cout << kv.first << ":" << kv.second << endl;
		}
	}
}

int main()
{
	rtx::test_unordered_set();
	rtx::test_unordered_map();

	return 0;
}

3. 题外话+笔试选择题

还有一些接口函数和仿函数参数这里并没有实现，正如前面说的，

模拟实现不是为了造一个更好的轮子，而是理解它的底层实现。

值得一提的是库里面unordered系列都提供了比较key相不相等的仿函数：

本篇模拟实现的是直接调用的等于，这样就写死了，

比如key是日期类的指针比较就是比较指针的地址了，但是我们想要比较的是指针指向的内容。

所以应该是要加上这个仿函数的，我们以前写过类似的这里就不加上去了。

所以就会有下面的面试题：

------------------------------------------------分割----------------------------------------------------------------

笔试选择题1：关于unordered_map和unordered_set说法错误的是（）

A.它们中存储元素的类型不同，unordered_map存储键值对，而unordered_set中只存储key

B.它们的底层结构相同，都使用哈希桶

C.它们查找的时间复杂度平均都是O(1)

D.它们在进行元素插入时，都得要通过key的比较去找待插入元素的位置

笔试选择题2：关于unordered_map和unordered_set说法错误的是（）

A.它们中都存储的键值对

B.map适合key有序的场景，unordered_map没有有序的要求

C.它们中元素查找的方式相同

D.map的底层结构是红黑树，unordered_map的底层结构是哈希桶

答案：

A：正确，参考unordered_map和unordered_set的文档说明

B：正确，都采用的是哈希桶来实现的

C：正确，哈希是通过哈希函数来计算元素的存储位置的，找的时候同样通过哈希函数找元素位置，不需要循环遍历因此时间复杂度为O(1)

D：错误，不需要比较，只需要通过哈希函数，就可以确认元素需要存储的位置

选D

A：正确，结合文档说明

B：正确，因为map的底层是红黑树，红黑树中序遍历可以得到关于key有序的序列，而unordered _map底层是哈希桶，哈希对于其存储的元素是否有序，并不关心

C：错误，map按照二叉搜索树的规则查找，unordered_map按照哈希方式进行查找

D：正确

选C

本篇完。

下一篇是又到高阶数据结构的内容：从C语言到C++_32（哈希的应用）位图bitset+布隆过滤器+哈希切割。

你可能感兴趣的:(④从C语言到C++,c++,哈希算法,数据结构,算法,STL)

如何在Node.js里实现依赖注入前端
什么是依赖注入依赖注入是一种用于在开发过程中实现控制反转（IoC）的技术。在IoC中，对程序流的控制是颠倒的：依赖项不是控制其依赖项的创建和管理的组件，而是从外部源提供给组件。在传统的编程模式中，一个组件可能会直接创建并管理它所依赖的其他组件，这会导致组件之间的耦合度较高，难以维护和测试。控制反转是一种设计原则，它改变了组件之间的控制关系。在IoC中，组件不再自己创建和管理它所依赖的组件，而是将这
记录搭建一个私人搜索引擎
本人很喜欢搜索引擎技术，最近想搭建一个属于自己的私人搜索引擎，自动完成所有的出来流程，记录一下。把某个行业、某个领域，对应的网址放在一个txt文件内，接下来动动鼠标，点几下，从爬取到最后即时搜索，自动全部搞定，效果跟在百度搜索没什么两样。以下是具体的操作流程逻辑：第一步：创建一个索引任务，一键生成这个操作会自动创建对应的表，用来存放爬取的网页内容，不需要人工创建，省去一些过于细化的配置。第二步，开
如何使用Visual Studio Code调试PHP CLI应用和Web应用
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
2025年，游戏行业何去何从？65位业内大佬给出答案花生糖@ 技术创业之路：从创意到企业游戏人工智能
2024年，游戏行业呈现出冰火两重天的景象：独立游戏领域如沐春风，爆款频出，开发者和粉丝们沉浸在创意的狂欢中；而AAA游戏业务却遭遇寒冬，裁员潮一波接一波，众多工作室黯然离场。站在2020年代下半叶的门槛上，我们不禁要问：游戏行业的未来将何去何从？为此，我们采访了65位游戏行业的领军人物，从创意领袖到初创公司创始人，从社区领袖到营销专家，他们给出了各自独到的见解和新年决心，为这个疯狂且不断发展的行
无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案汀、人工智能 AI Agent LLM工业级落地实践人工智能 AI Agent LLM Dify 智能体智能问答聊天助手
无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案1.快速创建应用你可以通过3种方式在Dify的工作室内创建应用：基于应用模板创建（新手推荐）创建一个空白应用通过DSL文件（本地/在线）创建应用从模板创建应用初次使用Dify时，你可能对于应用创建比较陌生。为了帮助新手用户快速了解在Dify上能够构建哪些类型的应用，Dify团队内的提
1.Spring AI 从入门到实践 laopeng301 Spring AI spring 人工智能 java
SpringAI从入门到实践1.什么是SpringAI2.使用SpringBoot&SpringAI快速构建AI应用程序3.ChatClient&ChatModel简化与AI模型的交互4.SpringAIPrompt:与大模型进行有效沟通5.结构化输出大模型响应6.实战:AI聊天机器人Ben技术站关注Java技术，LLM，计算机科学等内容。关注会持续更新推送详细教程内容和源码。
关于 PHP 性能优化很青的青蛙 php php php 性能优化
本文写的也是关于PHP性能优化、减少耗时方面的话题，虽然老生常谈，但还是以我的角度来一个总结或分享。网上关于50条PHP优化的方法，除此之外从架构或环境方面的优化建议等，是非常有益的。本文讲讲我所关注的一些方法或建议。一般来说，性能优化可先从大的方向开始考虑，从对影响性能比较大的因素来考虑，比如现在使用PHP5.7，性能据说可以成倍提高，最后考虑的应该是PHP语法细节上。1.PHP部署环境单台服务
C++17（3） programing菜鸟 modern C++c++开发语言后端
目录类模板实参推导CTAD是如何工作的？CTAD&&STLvectordeductionguides其他与CTAD的搭配CTAD要注意的点何时&&如何禁用CTAD模板元编程技法deductionguides&&SFINAEmoreC++20可能对CTAD的修改类模板实参推导C++17支持类模板类型推导（classtemplateargumentdeduction，在下面的文章中，我叫做CTAD）。
【视觉算法—视频目标跟踪】基于camshift实现视频目标实时追踪明月下视觉算法 opencv python 音视频
本文代码功能：1.获取摄像头，实时显示2.鼠标获取第一帧中的目标roi区域3.在视频中实时对目标进行追踪。4.两种目标追踪的方式：‘meanshift’，‘camshift’5.保存视频代码准备新建test.py，复制以下代码：importcv2ascvimportnumpyasnpglobalmin_y,height,min_x,width#1代表打开外置摄像头,外置多个摄像头可依此枚举0，1，
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
整理一下一些Qt/C++第三方库 MayZork qt 开发语言 c++
boost一个广泛的C++库集合，提供了大量的功能模块，包括但不限于数据结构、算法、并发编程、网络编程、文件系统、正则表达式、序列化等。poco也是一个广泛的C++库集合，提供了一套丰富的功能模块，包含网络通信、HTTP、文件系统、XML、JSON、数据库等。libevent轻量级的C语言库，主要用于异步网络编程。它提供了对I/O复用的支持，使得开发者可以在单线程中同时处理多个连接。QCustom
HiveMetaException: Unknown version specified for initialization: 3.1.0（或者其他版本号）一品_人生 mysql hive 大数据
遇到这个问题，也是很难发现的，查阅很多文章，乱七八糟，也可能是遇到的问题不相同吧，我们从以下两个方面去排查吧1.检查你的hive-site.xml和hive-env.sh，配置对就行，这个网上一大片，注意要正确。2.那就是你解压的hive压缩文件，然后发现要安装mysql，这时你会先检查你本地有没有mysql，使用find/-namemysql（罪源），然后你就一通删除，你没有发现你删除了一个hi
C++ 游戏开发周盛欢 c++开发语言
嘿，小伙伴们，想不想自己动手开发个游戏呀？今天就来带大家用C++开发游戏，保证通俗易懂，就算你是0基础也能跟上。一、为啥用C++开发游戏C++可厉害了，它运行速度快得跟闪电似的，能让你的游戏画面流畅得跟丝滑巧克力一样。而且它功能强大，啥复杂的游戏逻辑都能搞定，像那些大型的3D游戏，很多都是用C++开发的呢。二、开发环境搭建先得有个好用的开发工具，推荐用VisualStudio（VS）。去官网（ht
随机森林分类算法原理与实验分析 ningaiiii 机器学习与深度学习随机森林分类算法
随机森林分类算法原理与实验分析1.引言随机森林（RandomForest）是一种集成学习方法，它通过构建多个决策树并结合它们的预测结果来进行分类。你可以把它想象成一个“团队决策”的过程：团队中的每个成员（决策树）都独立发表意见，最后通过投票决定最终结果。这种方法不仅提高了模型的准确性，还增强了模型的稳定性和鲁棒性。随机森林的主要特点是通过随机选择样本和特征来构建多个决策树，从而避免单棵决策树可能产
全星研发管理APQP软件系统：让汽车电子研发管理体系化建设事半功倍 APQP枫枫软件工程
全星研发管理APQP软件系统：让汽车电子研发管理体系化建设事半功倍在汽车电子行业，研发管理的重要性不言而喻。为了确保产品从设计到量产的每个环节都能满足质量要求，越来越多的企业开始采用APQP（AdvancedProductQualityPlanning）方法。全星研发管理APQP软件系统应运而生，为汽车电子研发管理体系化建设提供了有力支持，让企业事半功倍。全星研发管理APQP软件系统是一款针对汽车
快速傅里叶变换华东算法王（原聪明的小孩子小孩哥总结MIT线性代数线性代数矩阵
快速傅里叶变换（FFT）快速傅里叶变换（FFT）是一种高效的算法，用于计算离散傅里叶变换（DFT）和其逆变换。傅里叶变换是一种重要的数学工具，广泛应用于信号处理、图像分析、数据压缩、声音合成等领域。传统的离散傅里叶变换算法的计算复杂度较高，而快速傅里叶变换通过减少计算量，大大提高了运算速度。1.离散傅里叶变换（DFT）离散傅里叶变换（DFT）将离散的时间信号变换到频域。对于一个长度为(N)的离散序
动态规划算法----回文串问题阿_北算法动态规划 c++
引言在算法的世界里，回文串问题一直是一个经典且富有挑战性的题目。而动态规划作为一种强大的算法思想，为解决这类问题提供了高效且优雅的解决方案。本文将深入探讨如何运用动态规划算法来解决回文串相关问题，从问题描述、动态规划思路，到代码实现与复杂度分析，全面剖析这一过程。回文串问题描述回文串是指一个字符串从左到右读和从右到左读是完全一样的，例如“level”、“madam”等。常见的回文串问题有：给定一个
每日新闻掌握【2024年1月18日星期六】 cdmt 每日新闻掌握科技
2025年1月18日星期六农历腊月十九大公司/大事件SpaceX“星舰”第七次试飞，再现“筷子夹火箭”，二级飞船失联美国太空探索技术公司（SpaceX）新一代重型运载火箭“星舰”实施第七次试飞，第二级飞船失联。马斯克随后发帖并配发视频称，“成功是不确定的，但娱乐是有保证的！”他还写道，改进版星舰和助推器已准备就绪，等待发射。SpaceX“星舰”从美国得克萨斯州发射升空不久后，火箭第二级飞船与地面团
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
BERT详解 comli_cn 大模型笔记 bert 人工智能深度学习
1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是前几年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用了双向Transformer作为算法的主要框架，之前的模型是从左向右输入一个文本序列，或者将l
华为OD机试E卷 - 跳格子3 （Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 javascript c++华为OD机试E卷 -跳格子3
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明和朋友们一起玩跳格子游戏，每个格子上有特定的分数score=[1,-1,-6,7,-17,7]，从起点score[0]开始，每次最大的步长为k，请你返回小明跳到终点score[n-1]时，能得到的最大得分。输入描述第一行输入总的格子数量n第二行输入每个格子的分数score[i]第三行输入最大跳的步长k备注格子的总长
华为OD机试E卷 - 查找接口成功率最优时间段（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python 华为OD机试E卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述服务之间交换的接口成功率作为服务调用关键质量特性，某个时间段内的接口失败率使用一个数组表示，数组中每个元素都是单位时间内失败率数值，数组中的数值为0~100的整数，给定一个数值(minAverageLost)表示某个时间段内平均失败率容忍值，即平均失败率小于等于minAverageLost，找出数组中最长时间段，如果未
华为OD机试CD卷- 跳格子3（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od c语言 c++java javascript
题目描述小明和朋友们一起玩跳格子游戏，每个格子上有特定的分数score=[1,-1,-6,7,-17,7]，从起点score[0]开始，每次最大的步长为k，请你返回小明跳到终点score[n-1]时，能得到的最大得分。输入描述第一行输入总的格子数量n第二行输入每个格子的分数score[i]第三行输入最大跳的步长k输出描述输出最大得分备注格子的总长度n和步长k的区间在[1,100000]每个格子的分
chatgpt赋能python：Python：免费下载音乐的神器 atest166 ChatGpt python chatgpt 开发语言计算机
Python：免费下载音乐的神器Python是一种优秀的编程语言，在各个领域都有广泛的应用。如果你是一个音乐爱好者，那么Python可以帮助你轻松免费下载你喜欢的音乐。介绍在过去，许多网站和应用程序提供免费下载音乐的服务，但现在这些服务已经不复存在。然而，Python可以帮助你免费下载音乐，并且速度非常快。Python有许多库可以帮助你从网上下载免费音乐。其中，最著名的库是"youtube_dl"
【Python百日精通】列表的基本概念与应用场景屿小夏精通Python百日计划 python 开发语言
文章目录引言一、列表的定义示例：二、列表的应用场景2.1存储多个数据项2.2动态数据处理2.3批量处理数据三、列表的格式示例：四、列表的实际应用屿小结引言在编程中，数据存储与处理是程序设计的核心任务之一。列表（List）是一种非常常见且重要的数据结构，它能够高效地存储和管理多个数据项。本文将详细介绍列表的基本概念、格式及其应用场景，并通过实例演示列表在实际编程中的重要性和实用性。一、列表的定义列表
《多模态语言模型：一个开放探索的技术新领域》 XianxinMao 语言模型人工智能算法
核心主题多模态语言模型的特点仍处于探索和定义阶段没有固定的标准任务和评估方法研究方向高度开放技术路径主要存在两种方法：后期融合(LateFusion)从语言模型backbone开始添加图像编码器效果稳定，成本可控早期融合(EarlyFusion)从多模态数据集预训练效果尚不明显需要更大规模计算资源开放和透明的重要性促进知识累积和技术迭代降低技术准入门槛避免技术垄断便于安全性审计主要挑战技术层面数据
leetcode——令牌放置（java） gentle_ice 算法数据结构 java
你的初始能量为power，初始分数为0，只有一包令牌以整数数组tokens给出。其中tokens[i]是第i个令牌的值（下标从0开始）。你的目标是通过有策略地使用这些令牌以最大化总分数。在一次行动中，你可以用两种方式中的一种来使用一个未被使用的令牌（但不是对同一个令牌使用两种方式）：朝上：如果你当前至少有tokens[i]点能量，可以使用令牌i，失去tokens[i]点能量，并得到1分。朝下：如果
集群间hive数仓迁移 one code database
方式一：(此方法需要建库建表)第一步：建库建表在原集群hive上查看迁移表的建表语句及所在库，然后在新集群hive上建库建表；showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步：转移数据文件到新集群；在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
微博文本挖掘并生成词云图（亲身经历~超级小白教程）吟游诗人理智鱼技能 python visual studio pycharm 爬虫数据挖掘数据可视化
在参与正大杯市场调研大赛的准备过程中，我被分配到了文本挖掘及后续可视化的工作任务，其中就包括爬取微博博文内容数据、以及将内容可视化（生成云图）接下来我将以生成词云图为目标，介绍实现方法以及煮波的一些心路历程。一、微博数据爬取（另外介绍）二、生成词云图从微博爬取的数据会以csv的格式存放在项目文件中，目前我采用的方法是将csv文件转为excel，再对excel中的文本进行词频统计，从而生成词云图，将
第五讲：运算符与表达式：算术、关系、逻辑、赋值等运算符及其优先级 VNGRY C++50讲算法 c++
在C++编程中，运算符和表达式是构建程序逻辑的基础。它们允许我们对数据进行各种操作，从而得出新的数据值或执行特定的逻辑判断。C++中的运算符种类繁多，根据功能的不同，可以大致分为算术运算符、关系运算符、逻辑运算符和赋值运算符等几大类。此外，每种运算符都有其特定的优先级和结合性，这些规则决定了在复杂的表达式中，各个运算符的执行顺序。一、算术运算符算术运算符用于执行基本的数学运算，包括加法、减法、乘法
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_