bang___bang_

【项目设计】高并发内存池（Concurrent Memory Pool）

1️⃣项目介绍

项目概述

知识储备

2️⃣内存池介绍

池化技术

内存池

内存池主要解决的问题

内碎片

外碎片

malloc

3️⃣ 定长内存池设计

4️⃣ 项目整体框架实现

5️⃣Thread Cache设计

自由链表

对齐映射规则设计

对齐大小计算

映射桶号计算

ThreadCache类

申请内存

慢开始反馈调节算法

释放内存

TLS(thread local storage)无锁访问

6️⃣Central Cache设计

SpanList链表结构设计

Central Cache类

申请内存

释放内存

7️⃣Page Cache设计

Page Cache类

映射查找Span

申请内存

释放内存

8️⃣申请释放联调

申请内存联调

释放内存联调

9️⃣大于256Kb大块内存申请释放问题

大块内存申请问题

大块内存释放问题

性能对比及基数树优化

性能对比

性能瓶颈分析

基数树优化

1️⃣项目介绍

项目概述

本项目设计一个高并发内存池（Concurrent Memory Pool），基于Google开源项目tcmalloc（Thread-Caching Malloc），即线程缓存的malloc，实现了高效的多线程内存管理，可用于替代系统的内存分配函数（malloc、free），Go语言还把tcmalloc做了自己的内存分配器。

本项目旨在把tcmalloc的核心精华框架部分简化后拿来，自己模拟实现出一个学习版的高并发内存池。

知识储备

本项目会用到C/C++ 、数据结构（链表、哈希桶）、操作系统内存管理、单例模式、多线程、互斥锁等方面的知识。

2️⃣内存池介绍

池化技术

所谓 “池化技术” ，就是程序先向系统申请过量的资源，然后自己管理，以备不时之需。之所以要申请过量的资源，是因为每次申请该资源都有较大的开销，不如提前申请好了，这样使用时就会变得非常快捷，大大提高程序运行效率。

在计算机中，有很多使用“ 池 ” 这种技术的地方，除了内存池，还有连接池、线程池、对象池等。以服务器上的线程池为例，它的主要思想是：先启动若干数量的线程，让它们处于睡眠状态，当接收到客户端的请求时，唤醒池中某个睡眠的线程，让它来处理客户端的请求，当处理完这个请求，线程又进入睡眠状态。

内存池

内存池的研究重点不是向操作系统申请内存，而是对已申请到的内存的管理。

内存池是指程序预先从操作系统申请一块足够大内存，此后，当程序中需要申请内存的时候，不是直接向操作系统申请，而是直接从内存池中获取；同理，当程序释放内存的时候，并不真正将内存返回给操作系统，而是返回内存池。当程序退出(或者特定时间) 时，内存池才将之前申请的内存真正释放。

内存池主要解决的问题

内存池首先主要解决效率的问题，系统调用的性能开销是比较大的，当程序对堆的操作比较频繁时，这样做的结果会严重影响程序的性能，所以可以实现一个内存池对内存进行管理，而不是交给内核去进行系统调用。

其次分配内存时，还要解决内存碎片的问题，内存碎片分为内碎片和外碎片。

内碎片

内碎片的产生是因为申请内存空间时根据设计的对齐规则导致分配出去的空间有可能会有部分空间未被利用，这些在已经分配出去但未被使用的内存空间就是内碎片。

外碎片

外碎片的产生是因为2段空间不连续，碎片化，即使有足够的内存空间，也无法申请出来。

malloc

C/C++中我们要动态申请内存都是通过 malloc 去申请内存，但是我们要知道，实际我们不是直接使用系统调用去堆获取内存的，而是通过内存池去进行管理的，向系统获取一块大内存，然后切开分配给程序，当不够时再向系统申请大内存。malloc 就是一个内存池，底层设计是ptmalloc。

参考博客：

malloc的底层实现（ptmalloc）_z_ryan的博客-CSDN博客

3️⃣ 定长内存池设计

设计一个定长的内存池，为了将申请和释放与malloc分开，本项目要和malloc进行性能比较，那么各处实现就不能调用malloc以及对应的free，new和delete是C++的一个关键字，其底层调用了malloc和free，所以我们要避开使用C++的关键字，自己实现一个New和Delete。

定长内存池设计结构如下：

//定长内存池
template
class ObjectPool {
public:
	T* New()
	{
		T* obj = nullptr;
		//如果有还回的内存，直接使用还回的内存块
		if (_freeList)
		{
			obj = (T*)_freeList;
			_freeList = *(void**)obj;//内存块中首个指针大小（头4/8字节）存的是下一个还回内存块的地址
		}
		else
		{
			//如果内存块为空或者剩余的内存块不足以继续申请T对象
			if (_remainbytes < sizeof(T))
			{
				_remainbytes = 128 * 1024;//128kb
				_memory = (char*)SystemAlloc(_remainbytes>>PAGE_SHIFT);
				if (_memory == nullptr)
				{
					throw std::bad_alloc();
				}
			}
			obj = (T*)_memory;
			size_t objsize = sizeof(T) < sizeof(void*) ? sizeof(void*) : sizeof(T);
			_memory += objsize;
			_remainbytes -= objsize;
		}
		//使用定位new调用对象的构造函数创建对象，不会自动分配内存
		new(obj)T;
		return obj;
	}

	void Delete(T* obj)
	{
		//因为定位new不会管理内存释放，必须显示调用对象的析构函数
		obj->~T();
		//头插到freeList
		*(void**)obj = _freeList;
		_freeList = obj;
	}
private:
	char* _memory = nullptr;//指向内存块的指针
	void* _freeList = nullptr;//管理还回内存的自由链表 
	int _remainbytes = 0;//内存块中剩余的字节数
};

自由链表取到下一个内存块的地址设计在Thread Cache设计中自由链表模块有详细介绍，定长内存池在Windows下使用系统调用（VirtualAlloc）从堆中申请内存，在Linux下使用brk或mmap。

//堆上申请内存
inline static void* SystemAlloc(size_t kpage)
{
#ifdef _WIN32
	void* ptr = VirtualAlloc(0, kpage * (1 << PAGE_SHIFT),
		MEM_COMMIT | MEM_RESERVE, PAGE_READWRITE);
#else
	// brk mmap等
#endif
	if (ptr == nullptr)
		throw std::bad_alloc();
	return ptr;
}

有了内存还需要创建对象，这里采用定位new来调用对象的构造函数进行创建对象，因为定位new不会管理内存释放，所以我们在释放的时候要显示调用对象的析构函数，对资源进行清理，并且我们的释放实际上并不归还内存，而只是释放资源然后将内存挂在自由链表进行管理。

4️⃣ 项目整体框架实现

【项目设计】高并发内存池（Concurrent Memory Pool）_第5张图片

高并发内存池整体框架——三级缓存

现代很多的开发环境都是多核多线程，在申请内存的场景下，必然存在激烈的锁竞争问题。malloc 本身其实已经很优秀，但本项目的原型 tcmalloc在多线程高并发的场景下更胜一筹，所以本项目实现的内存池需要考虑以下几方面的问题：

性能问题。

多线程环境下，锁竞争问题。

内存碎片问题。

高并发内存池（Concurrent Memory Pool）三级缓存：

⭐线程缓存（Thread Cache）——无锁

⭐中心缓存（Central Cache）——桶锁

⭐页缓存（Page Cache） ——整体锁

设计：Thread Cache分配对象最大256Kb，根据定义的对齐映射规则计算出Thread Cache和Central Cache总桶数为208，Page Cache桶数（按页数）设计为129（0号桶不参与），采取线性映射，最大页数为128，假设1页8Kb，128*8Kb=1Mb,完全够给最大字节256Kb分4个。

static const size_t MAX_BYTES = 256 * 1024;//threadcache最大256kb
static const size_t NFREELISTS = 208;//使用static const代替define，208是根据定义的字节对齐算出的总共桶数
static const size_t NPAGES = 129;//总共Page桶数，128为最大页数，假设1页有8Kb，128*8Kb=1Mb，完全够给最大字节256Kb分4个
static const size_t PAGE_SHIFT = 13;//2^13 页大小8k

5️⃣Thread Cache设计

Thread Cache：线程缓存是每个线程独有的，用于小于 256KB 的内存的分配， 线程从这里申请内 存不需要加锁，利用TLS无锁访问机制，每个线程独享一个 cache ，这也就是这个并发线程池高效的地方 。

Thread Cache是哈希桶结构，每个桶是一个按桶位置映射大小的内存块对象的自由链表 。每个线程都会有一个thread cache 对象，这样每个线程在这里获取对象和释放对象时是无锁的。

自由链表

自由链表管理释放回来的小内存块和中心缓存中分配的未使用的小内存块，结构如下：

自由链表结构

因为自由链表是用来管理小内存块的，所以其必须能够指向下一块小内存，那么当对象的大小＜当前平台指针大小时，需要按指针的大小进行划分。

关于不同平台的问题，32位平台指针大小4Byte，64位平台指针大小8Byte。那么如何设计获取指针大小呢？

*(void**)    获取指针大小地址

//获取结点obj存的下一个结点地址（前4/8字节）,加static仅当前文件可见，防止重定义
static void*& NextObj(void* obj)
{
	return *(void**)obj;
}

* 解引用本质上是对地址区间进行获取类型大小的内容，比如int*，对int*进行 * 解引用，实际上是获取int类型大小的地址内容，也就是4Byte的内容。

void**是指针的指针，*（void**），就是对获取void*类型大小的地址内容，此时如果是32位平台就获得了4Byte大小内容，如果是64位平台就获得了8Byte大小内容。

在Thread Cache中哈希桶每个桶就是一个自由链表，自由链表中一定会有插入、删除、判空等操作，并且我们还可以记录个数_size，_maxSize这个桶最多能挂多少个，那么这么多个自由链表就需要被管理，我们设计一个管理自由链表的结构：

//管理切好的小对象自由链表
class FreeList
{
public:
	void Push(void* obj)
	{
		//头插
		NextObj(obj) = _freeList;
		_freeList = obj;
		++_size;
	}
	void PushRange(void* start, void* end,size_t n)
	{
		NextObj(end) = _freeList;
		_freeList = start;
		_size += n;
	}
	void PopRange(void*& start, void*& end, size_t n)
	{
        //头删
		assert(n >= _size);
		start = _freeList;
		end = start;

		for (size_t i = 0; i < n - 1; i++)
		{
			end = NextObj(end);
		}
		_freeList = NextObj(end);
		NextObj(end) = nullptr;
		_size -= n;
	}
	void* Pop( )
	{
        //头删
		void* obj = _freeList;
		_freeList = NextObj(obj);
		--_size;
		return obj;
	}
	bool Empty()
	{
		return _freeList == nullptr;
	}
	size_t Size()
	{
		return _size;
	}
	size_t& MaxSize()
	{
		return _maxSize;
	}
private:
	void* _freeList = nullptr;
	size_t _maxSize = 1;//自由链表最大个数
	size_t _size = 0;
};

对齐映射规则设计

对齐大小计算

[1,128]	8byte对齐	freelist[0,16)
[128+1,1024]	16byte对齐	freelist[16,72)
*[1024+1,81024]**	128byte对齐	freelist[72,128)
*[81024+1,641024]*	1024byte对齐	freelist[128,184)
*[641024+1,2561024]*	*81024byte对齐**	freelist[184,208)

该设计规则除了第一个桶的内碎片浪费大，保证其他桶内碎片浪费整体保证在10%左右。

（内碎片浪费率=浪费的字节/分配的字节），比如现在有129字节，就要分配144字节，只使用第一个16byte对齐桶的1个字节，浪费15字节，但总共分配了128+16=144字节，所以内碎片浪费率=15/144=10.4%

根据设计规则，通过传入参数（字节数），进行简单逻辑判断跳转至子函数_RoundUp进行对齐后的字节数计算。

//对齐大小计算
	static inline size_t RoundUp(size_t bytes)
	{
		assert(bytes <= MAX_BYTES);
		if (bytes <= 128)
		{
			return _RoundUp(bytes, 8);
		}
		else if (bytes <= 1024)
		{
			return _RoundUp(bytes, 16);
		}
		else if (bytes <= 8 * 1024)
		{
			return _RoundUp(bytes, 128);

		}
		else if (bytes <= 64 * 1024)
		{
			return _RoundUp(bytes, 1024);
		}
		else if (bytes <= 256 * 1024)
		{
			return _RoundUp(bytes, 8*1024);
		}
		else
		{
			assert(false);
		}
		return -1;
	}

对齐后的字节数计算函数（_RoundUp）设计我们学习参考tcmalloc的实现，采用位运算的方式进行，该设计思路十分巧妙，值得我们去学习使用。

	//计算对齐后的bytes大小
	static inline size_t _RoundUp(size_t bytes, size_t alignNum)
	{
		return (bytes + alignNum - 1) & ~(alignNum - 1);
	}

例子:

bytes=7 alignNum=8
alignNum-1=7       0000 0111
~(alignNum-1)       1111 1000
7+8-1=15               0000 1111
&                            0000 1000 = 8 = 对齐后所占大小

bytes=9       alignNum=8
9+8-1=16 0001 0000
&                            0001 0000 = 16 = 对齐后所占大小

映射桶号计算

首先根据上面设计的对齐映射规则，我们可以计算得到对应桶号的区间，利用数组将区间桶号保存，再使用简单逻辑判断进入子函数（_Index）计算当前所在区间映射到的桶号，最终对齐映射的桶号=区间前的桶数+当前区间桶号

//计算映射在哪一个桶
	static inline size_t Index(size_t bytes)
	{
		assert(bytes <= MAX_BYTES);
		//每个字节对齐数区间的最大链数（桶数）
		static int group[4] = { 16,56,56,56 };
		if (bytes <= 128) {
			return _Index(bytes, 3);
		}
		else if (bytes <= 1024) {
			return _Index(bytes - 128, 4) + group[0];
		}
		else if (bytes <= 8 * 1024) {
			return _Index(bytes - 1024, 7) + group[1] + group[0];
		}
		else if (bytes <= 64 * 1024) {
			return _Index(bytes - 8 * 1024, 10) + group[2] + group[1] + group[0];
		}
		else if (bytes <= 256 * 1024) {
			return _Index(bytes - 64 * 1024, 13) + group[3] + group[2] + group[1] + group[0];
		}
		else {
			assert(false);
		}
		return -1;
	}

同样的在这里学习参考tcmalloc的设计，巧妙使用位运算进行当前区间桶号计算，位运算比算术运算更加高效。

//计算当前对齐大小对应的所在桶号
	static inline size_t _Index(size_t bytes, size_t align_shift)
	{
		return ((bytes + (1 << align_shift) - 1) >> align_shift) - 1;
	}

例子：

 [1,8] align_shift=3 1<<3=8
 ((1+8-1)>>3)-1=0 0号桶
 ...
 ((8+8-1)>>3)-1=0 0号桶
 [9,16] align_shift=3 1<<3=8
 ((9+8-1)>>3)-1=1 1号桶
 ...
 ((16+8-1)>>3)-1=0 1号桶
 bytes=129 抛去bytes=128前的桶，只剩1bytes，再分配16字节对齐的0号桶,
 总桶号就是前128bytes桶号+当前16bytes的桶号

ThreadCache类

class ThreadCache
{
public:
	// 申请和释放内存对象
	void* Allocate(size_t size);
	void Deallocate(void* ptr, size_t size);

	// 从中心缓存获取对象
	void* FetchFromCentralCache(size_t index, size_t size);

	//释放对象时，链表过长时，回收内存回到中心缓存
	void ListTooLong(FreeList& list, size_t size);

private:
	FreeList _freeLists[NFREELISTS];
};

//TLS——无锁使变量在线程与线程之间独立
static __declspec(thread) ThreadCache* TLS_ThreadCache = nullptr;

申请内存

//申请内存
void* ThreadCache::Allocate(size_t size)
{
	assert(size <= MAX_BYTES);
	size_t alignSize = AMSize::RoundUp(size);
	size_t index = AMSize::Index(size);

	if (!_freeLists[index].Empty())
	{
		return _freeLists[index].Pop();
	}
	else
	{
		//去中心缓存取
		return FetchFromCentralCache(index,alignSize);
	}
}

⭐ 当内存申请 size<=256KB ，先获取到线程本地存储的 Thread Cache 对象，计算 size 映射的哈希桶自由链表下标i 。

⭐如果自由链表_freeLists[i] 中有对象，则直接 Pop 一个内存对象返回。

Pop（）函数在上面的FreeList类中，因为是从自由链表上取走一个去使用，所以需要返回值void*

//头删
void* Pop( )
	{
		void* obj = _freeList;
		_freeList = NextObj(obj);
		--_size;
		return obj;
	}

⭐如果_freeLists[i] 中没有对象时，则批量从 Central Cache 中获取一定数量的对象，头插入到自由链表并返回一个对象。

void* ThreadCache::FetchFromCentralCache(size_t index,size_t alignSize)
{
	size_t batchNum = min(_freeLists[index].MaxSize(), AMSize::NumMoveSize(alignSize));
	if (_freeLists[index].MaxSize() == batchNum)
	{
		//想修改返回值所以使用引用作为MaxSize返回值
		_freeLists[index].MaxSize() += 1;
	}

	void* start = nullptr;
	void* end = nullptr;
	size_t actualNum = CentralCache::GetInstance()->FetchRangeObj(start, end, batchNum, alignSize);
	assert(actualNum >= 1);

	if (actualNum == 1)
	{
		assert(start == end);
		return start;
	}
	else
	{
		//返回1个(start)，剩下的(从start下一个开始)挂接到桶上
		_freeLists[index].PushRange(NextObj(start), end,actualNum-1);
		return start;
	}
}

对于需求不同字节大小，从Central Cache获取的分配个数又需要考虑性能，对于分配8bytes，可以多分配一些（但要有上限），对于256*1024bytes，则少分配些（但要有下限）
采用慢开始反馈调节算法
   1.最开始不会一次向Central Cache一次批量要太多，因为要太多可能用不完
   2.如果不要这个size大小内存需求，那么betchNum就会不断增长直到上限。
   3.size越大，一次向Central Cache要的batchNum就越小
   4.size越小，一次向Central Cache要的batchNum就越大

慢开始反馈调节算法

// 一次从中心缓存获取多少个
	static size_t NumMoveSize(size_t size)
	{
		assert(size > 0);
		// [2, 512]，一次批量移动多少个对象的(慢启动)上限值
		// 小对象一次批量上限高
		// 小对象一次批量上限低
		int num = MAX_BYTES / size;
		if (num < 2)
			num = 2;
		if (num > 512)
			num = 512;
		return num;
	}

如果只需要8Byte大小，从Central Cache获取批量数就是256*1024/8，其结果大于512，返回512个；如果需要256Kb大小，从Central Cache获取批量数就是256Kb/256Kb=1，其结果小于2，返回2个。

这样设计批量在于确定上下限，不会使得从中心缓存获取的小块内存过多或过少，如果获取过多，一直不使用，达到一定数量时又会回收给Central Cache，多此一举，所以确定上下限。计算结果在上下限之间的就返回计算个数。

释放内存

⭐当释放内存小于256Kb 时将内存释放回 Thread Cache ，计算 size 映射自由链表桶位置 i ，将对象 Push到_freeLists[i] 。

//释放内存
void ThreadCache::Deallocate(void* ptr, size_t size)
{
	assert(ptr);
	assert(size <= MAX_BYTES);

	//找到映射的自由链表桶，对象插入进去
	size_t index = AMSize::Index(size);
	_freeLists[index].Push(ptr);

	//当链表长度大于一次批量申请的内存时就开始还一段list给CentralCache 
	if (_freeLists[index].Size() >= _freeLists[index].MaxSize())
	{
		ListTooLong(_freeLists[index], size);
	}
}

⭐当链表的长度过长，则回收一部分内存对象到Central Cache 。

void ThreadCache::ListTooLong(FreeList& list, size_t size)
{
	void* start = nullptr;
	void* end = nullptr;
	list.PopRange(start, end, list.MaxSize());

	CentralCache::GetInstance()->ReleaseListToSpans(start, size);
}

start和end在PopRange中是输出型参数，进入PopRange中进行头删将待回收的链表内存对象拿出来返还给Central Cache 。

TLS(thread local storage)无锁访问

我们在设计中要求每一个线程都有一个独属于自己的ThreadCache类，如果我们把他ThreadCache类实现为全局的，那么必然每个线程共享这个类，势必会发生竞争问题，需要加锁。

频繁的控制锁的加锁和解锁会增加时间成本，这显然和我们要的高性能不相符，所以这里提出一个变量存储方法TLS，线程局部存储TLS，该方法下：变量在当前线程下是全局可访问的，在线程和线程之间是独立局部的，这有效的实现了每个线程独属于自己的类，避免加锁。

//TLS——无锁使变量在线程与线程之间独立
static __declspec(thread) ThreadCache* TLS_ThreadCache = nullptr;

我们使用TLS机制，创建一个ThreadCache类指针，进行多线程下创建线程独立的类。该指针在申请和释放联调过程中调用。

6️⃣Central Cache设计

Central Cache也是一个哈希桶结构，他的哈希桶的映射关系跟T hread Cache 是一样的。不同的是他的每个哈希桶位置挂是SpanList 链表结构，不过每个映射桶下面的 span 中的大内存块被按映射关系切成了一个个小内存块对象挂在span 的自由链表中。

SpanList链表结构设计

Span管理以页为单位大小的大内存块

Span是以页为单位，那么就涉及到一个问题，页号在32位下，最高（2^32）/（2^13）=2^19，2^19我们需要4字节大小来表示，可以用size_t类型可以表示，但如果是64位下，页号最高（2^64）/（2^8）=2^51，我们需要8字节大小来表示，可以用unsigned long long类型。所以我们使用条件编译进行判断使用何种变量：

#ifdef _WIN64
	typedef unsigned long long PAGE_ID;
#elif _WIN32
	typedef size_t PAGE_ID;
#else
	//linux
#endif

细节：64位系统下，包含了宏_WIN32和_WIN64；如果把_WIN32放在最开始判断，那么就无法识别出64位系统，会一直识别为32位，所以我们将_WIN64放在最开始判断64位系统

但实际上size_t在64位下是unsigned long long 或者unsigned _int64类型（范围：[0,2^64 -1]），32位下是unsigned int类型。如果想要编写可移植的代码，应该避免直接使用int或long类型，而是要使用size_t类型。

所以你也可以简化为：

#ifdef _WIN32
	typedef size_t PAGE_ID;//64位下也有宏_WIN32
#else
	//linux
#endif

Span里存储页号、页数、前后指针、切分小块内存的大小（用于释放的时候传参）、切分好的小块内存的数目（回收对象，如果Span内切分出去的对象全部回收，即_useCount=0，回收Span给PageCache进行页合并）、切好小块内存的自由链表、该Span是否被使用（用以合并Span判断）

struct Span
{
	PAGE_ID _pageId= 0;//大块内存起始页的页号
	size_t _n = 0;//页的数量,本质和PageCache中的SpanList数组（桶）下标一致，可以用来寻找挂接的桶位置

	Span* _next = nullptr;
	Span* _prev = nullptr;

	size_t _objSize = 0;//切好的对象大小
	size_t _useCount = 0;//切好小块内存,分配个thread_cache的计数
	void* _freeList = nullptr;//切好小块内存的自由链表

	bool _isUse = false;//判断是否被使用
};

SpanList带头双向循环链表，其结构如下：（一个头结点以及桶锁）

//带头双向循环链表
class SpanList
{
public:
	SpanList()
	{
		_head = new Span;
		_head->_prev = _head;
		_head->_next = _head;
	}
	Span* Begin()
	{
		return _head->_next;
	}
	Span* End()
	{
		return _head;
	}
	void PushFront(Span* span)
	{
		Insert(Begin(), span);
	}
	void Insert(Span* pos, Span* newSpan)
	{
		assert(pos);
		Span* prev = pos->_prev;

		prev->_next = newSpan;
		newSpan->_prev = prev;
		pos->_prev = newSpan;
		newSpan->_next = pos;
	}
	Span* PopFront( )
	{
		Span* span = _head->_next;
		Erase(span);
		return span;
	}
	void Erase(Span* pos)
	{
		assert(pos);
		assert(pos != _head);//不能删带头结点

		Span* prev = pos->_prev;
		Span* next = pos->_next;

		prev->_next = next;
		next->_prev = prev;
	}
	bool Empty()
	{
		return _head->_next == _head;
	}
private:
	Span* _head;
public:
	std::mutex _mtx;
};

Central Cache类

Central Cache：中心缓存是所有线程所共享， Thread Cache 是 按需从 central cache 中获取 的对象。Central Cache 合适的时机回收 Thread Cache 中的对象，避免一个线程占用了太多的内存，而其他线程的内存吃紧，达到内存分配在多个线程中更均衡的按需调度的目的 。

Central Cache是存在竞争的，所以从这里取内存对象是需要加锁，首先这里用的是桶锁，其次只有 Thread Cache当 没有内存对象时才会找 Central Cache ，所以这里竞争不会很激烈 。

Central Cache是所有线程共享的，所以只设计1个，并且当程序运行的时候我们就要创建出来，所以我们用单例模式的饿汉模式。

#pragma once
#include"Common.h"

//因为所有线程对象共用一个CentralCache，
//所以设计成单例模式
class CentralCache
{
public:
	static CentralCache* GetInstance()
	{
		return _pInst;
	}

	//获取一个非空的span
	Span* GetOneSpan(SpanList& list, size_t size);

	//从中心缓存获取一定数量的对象给Thread Cache
	size_t FetchRangeObj(void*& start, void*& end, size_t batchNum, size_t size);

	// 将一定数量的对象释放到span跨度
	void ReleaseListToSpans(void* start, size_t size);


private:
	SpanList _spanLists[NFREELISTS];
private:
	//构造函数私有
	CentralCache()
	{}
	//禁止拷贝构造函数
	CentralCache(const CentralCache&) = delete;
	static CentralCache* _pInst;//声明
};

申请内存

⭐当Thread Cache 中没有内存时，就会批量向 Central Cache 申请一些内存对象，这里的批量获取对象的数量使用了类似网络tcp协议拥塞控制的慢开始算法；Central Cache也有一个哈希映射的

spanList ， spanList 中挂着 span ，从 span中取出对象给Thread Cache，这个过程是需要加锁的，不

过这里使用的是一个桶锁，尽可能提高效率。

从Central Cache中的span取对象，那么一定是Thread Cache的桶中没有剩余的对象，因为我们是从span中获取的，那么一定是一端连续的内存，我们只需要首位地址就可以，而且需要将首位地址返回（设置为输出型参数），用来给Thread Cache头插挂接一段（PushRange）对象。

//从中心缓存获取一定数量的对象给Thread Cache
size_t CentralCache::FetchRangeObj(void*& start, void*& end, size_t batchNum, size_t size)
{
	size_t index = AMSize::Index(size);
	_spanLists[index]._mtx.lock();//加桶锁

	Span* span = GetOneSpan(_spanLists[index], size);
	assert(span);
	assert(span->_freeList);

	//从span中获取batchNum个对象，如果不够batchNum个，有多少拿多少
	end = start = span->_freeList;
	size_t i = 0;
	size_t actualNum = 1;
	while (i < batchNum - 1 && NextObj(end) != nullptr)
	{
		end = NextObj(end);
		++i;
		++actualNum;
	}
	//span中内存的自由链表指向分出后的余下内存结点
	span->_freeList = NextObj(end);
	//分出的最后个结点指向空
	NextObj(end) = nullptr;
	span->_useCount += actualNum;

	_spanLists[index]._mtx.unlock();

	return actualNum;
}

这里使用桶锁，防止多个线程同时访问一个桶，造成线程安全问题。

并且从Central Cache中的span切分（在GetOne中切分）batchNum对象给Thread Cache，但是可能实际上span并没剩下那么多，只能将剩下的分配给Thread Cache，所以需要统计一个实际值actualNum，_useCount+=actualNum更新span中切分出去的对象，保证回收不会出错。

返回实际分配到的对象数目，在Thread Cache中返回1个使用，剩余的actualNum头插挂接到Central Cache对应的桶上。

⭐Central Cache映射的spanList 中所有 span 的都没有内存以后，则需要向 Page Cache 申请一个新的span对象，拿到 span 以后将 span 管理的内存按大小切好作为自由链表链接到一起。然后从 span中取对象给Thread Cache。

//获取一个非空的span
Span* CentralCache::GetOneSpan(SpanList& list, size_t size)
{
	//查看当前的spanlist这时是否有 未分配对象的span
	Span* it = list.Begin();
	while (it != list.End())
	{
		if (it->_freeList != nullptr)
		{
			return it;
		}
		else
		{
			it = it->_next;
		}
	}
	//先把CentralCache的桶锁解掉，这样如果其他线程释放内存对象回来，不会阻塞
	list._mtx.unlock();

	//走到此说明没有空闲span了，只能找PageCache要
	PageCache::GetInstance()->_pageMtx.lock();
	Span* span=PageCache::GetInstance()->NewSpan(AMSize::NumMovePage(size));
	span->_isUse = true;
	span->_objSize = size;//(小于256Kb)三级缓存中一定是从PageCache中去拿，存储对象大小
	PageCache::GetInstance()->_pageMtx.unlock();

	//切分span并挂接到桶，此时不需要加锁，因为这会其他线程访问不到这个span
	//计算span的大块内存的起始地址和大块内存的大小（字节数）
	char* start = (char*)(span->_pageId << PAGE_SHIFT);
	size_t bytes = span->_n << PAGE_SHIFT;
	char* end = start + bytes;

	//把大块内存切成自由链表链接起来
	//先切一块下来做头，方便尾插，尾插是为了保存地址顺序
	span->_freeList = start;
	start += size;
	void* tail = span->_freeList;

	while (start < end)
	{
		NextObj(tail) = start;
		tail = NextObj(tail);
		start += size;
	}
	//最后一个span内的小内存块指向空
	NextObj(tail) = nullptr;

	//切好span后，挂接到桶需要加锁
	list._mtx.lock();
	list.PushFront(span);

	return span;
}

如果Central Cache当前桶有剩余的span，直接返回该span，不需要去Page Cache申请span。

如果没有剩余span，解开桶锁，进入PageCache中获取span，获取后记录使用情况和存储对象大小，并且Page Cache实际上我们也只设计了1个，所以他也需要加锁。

为什么要解开桶锁？

CentralCache是桶锁，PageCache是整个锁。

在CentralCache::GetOneSpan（）中获取一个span，需要从Page获取Span时，先把桶锁解掉，如果此时线程1和2都执行GetOneSpan（），因为PageCache::NewSpan（）有整个锁，产生阻塞，也不会产生混乱。

也就是说CentralCache在此时解不解锁在获取Span时作用一样，但是我可以线程1在这个桶拿Span，并且线程2在这个桶释放Span，为了提高效率，所以我们解开桶锁。

页缓存获取span是按页来分配的，所以接口NewSpan需要传递页数，我们设计NumMovePage获取页数：传递申请的对象对齐大小，先进入NumMoveSize获取向Central Cache申请的span个数，对齐大小*个数=总Byte，总Byte/页大小=需要的页数，不满足1页给1页。

	static size_t NumMovePage(size_t size)
	{
		size_t num = NumMoveSize(size);
		size_t npage = num * size;	//算出需要的总Byte大小
		npage >>= PAGE_SHIFT;		//总Byte大小/页大小=需要的页数
		if (npage == 0)
			npage = 1;
		return npage;
	}

从Page Cache中获取span后，我们span中只存储了页信息，但没有他的地址信息，那我们怎么获得地址去管理连接内存对象呢？

这里就要引入一个概念：页的起始地址=页号*页大小

页的尾地址=起始地址+页的数量*页的大小

页号=页的起始地址/页大小

那么在相邻页之间地址，其地址大小小于后面一页的起始地址，➗页大小必定也能得到该页的页号。这在回收中有着重要作用。

从Page Cache中获取到span后，我们通过上面的概念，可以计算出该span的起始地址和尾地址，我们再根据对象大小进行切分，因为内存物理上其实是连续的，而我们这里要在抽象的把他形成链式结构，我们就需要通过尾插来保证地址的连续。切好后将该span挂在Central Cache的桶。

⭐Central Cache的中挂的span 中_ useCount 记录分配了多少个对象出去，分配一个对象给Thread Cache，就 ++_useCount。

释放内存

⭐当Thread Cache 过长或者线程销毁，则会将内存释放回 Central Cache 中的，释放回来时 _

useCount-- 。当 useCount 减到 0 时则表示所有对象都回到了 span ，则将 span 释放回 Page Cache ，

Page Cache 中会对前后相邻的空闲页进行合并。

// 将一定数量的对象释放到span跨度
void CentralCache::ReleaseListToSpans(void* start, size_t size)
{
	//找到在哪个桶上
	size_t index = AMSize::Index(size);
	_spanLists[index]._mtx.lock();//加锁，因为有桶锁防止多线程竞争
	//回收到span
	while (start)
	{
		void* next = NextObj(start);
		//找到对应的span，小内存（自由链表）头插
		Span* span = PageCache::GetInstance()->MapObjToSpan(start);
		NextObj(start) = span->_freeList;
		span->_freeList = start;
		span->_useCount--;

		//如果为0，说明span切分出的小块内存都回来了，这个span可以再回收给PageCache，再尝试去前后页合并
		if (span->_useCount == 0)
		{
			//从桶里拿掉这个span
			_spanLists[index].Erase(span);
			//知道span的页号就可以知道span的起始地址从而找到整块span，不需要考虑小块内存链表_freeList了
			span->_freeList = nullptr;
			span->_next = nullptr;
			span->_prev = nullptr;

			_spanLists[index]._mtx.unlock();//已经拿掉span了，可以释放桶锁给别人

			PageCache::GetInstance()->_pageMtx.lock();
			PageCache::GetInstance()->ReleaseSpanToPageCache(span);
			PageCache::GetInstance()->_pageMtx.unlock();

			_spanLists[index]._mtx.lock();
		}

		start = next;
	}
	_spanLists[index]._mtx.unlock();
}

头插回收一定数量对象到span，如果全部回收，即_useCount==0，则可以将该span拿给Page Cache进行页的合并。

那么如何通过地址获取对应的span呢？我们就需要调用MapObjToSpan函数来获取，这将在下面介绍。

7️⃣Page Cache设计

Page Cache ：页缓存是在C entral Cache 缓存上面的一层缓存，存储的内存是以页为单位存储及分

配的，C entral Cache 没有内存对象时，从P age Cache 分配出一定数量的 page ，并切割成定长大小

的大块内存，分配给 Central Cache 。 当一个 span 的几个跨度页的对象都回收以后，P age Cache

会回收C entral Cache 满足条件的 span 对象，并且合并相邻的页，组成更大的页，缓解内存碎片

的问题。

【项目设计】高并发内存池（Concurrent Memory Pool）_第11张图片

Page Cache类

Page Cache我们在设计中也是只有一个，所以设置成单例模式。

并且在Page Cache中我们桶的映射规则与上面2级缓存不同，这里采用直接定址法，i号桶挂i页内存。

桶的个数根据需求而定，我们申请内存最大是256Kb，页大小为8K，也就是说我们要想申请一个256Kb的对象就必须要（256/8=32）32页的span，那么我们可以多分配一些，设置桶个数为128，128页可以申请4个256Kb对象。实际上128页就是1Mb大小。

页缓存中主要对页进行操作，所以我们有必要对页和span建立一个映射关系，方便我们查找管理，所以使用哈希表unordered_map

对页缓存的访问需求实际上很少，所以我们使用一个整体锁来进行管理线程安全即可，避免频繁调用锁，消耗时间。

在创建Span中，我们使用了最开始设计的定长内存池来申请和释放对象，与new和delete分离。

#pragma once

#include"Common.h"
#include"ObjectPool.h"
//单例模式
class PageCache
{
public:
	static PageCache* GetInstance()
	{
		return _pInst;
	}

	//获取从对象到span的映射
	Span* MapObjToSpan(void* obj);

	//获取一个K页Span
	Span* NewSpan(size_t k);

	// 释放空闲span回到Pagecache，并合并相邻的span
	void ReleaseSpanToPageCache(Span* span);

	std::mutex _pageMtx;//全局锁

private:
	SpanList _spanLists[NPAGES];//页数作桶的映射下标
	std::unordered_map_idSpanMap;

	ObjectPool_spanPool;
private:
	PageCache()
	{}
	PageCache(const PageCache&) = delete;
	static PageCache* _pInst;

};

映射查找Span

根据Central Cache申请内存部分引入的概念，我们可以得知页的起始地址*页大小=页号，我们可以通过这个公式得到页号，然后在哈希表中查找到对应的span。

这里我们使用RAII原则的unique_lock，构造时加锁，出作用域对象解锁，防止程序异常退出导致死锁，优化代码。

//通过页的起始地址找到页，从而映射找到span
Span* PageCache::MapObjToSpan(void* obj)
{
	//算页号
	PAGE_ID id = (PAGE_ID)obj >> PAGE_SHIFT;

	std::unique_locklock(_pageMtx);//RAII思想，构造时加锁，出作用域对象销毁调用析构函数解锁
	查找
	auto ret = _idSpanMap.find(id);
	if (ret != _idSpanMap.end())
	{
		return ret->second;
	}
	else
	{
		assert(false);
		return nullptr;
	}
}

申请内存

⭐当central cache 向 page cache 申请内存时， page cache 先检查对应位置有没有 span ，如果没有 则向更大页寻找一个 span ，如果找到则分裂成两个 。比如：申请的是 4 页 page ， 4 页 page 后面没

有挂 span ，则向后面寻找更大的 span ，假设在 10 页 page 位置找到一个 span ，则将 10 页 page span分裂为一个 4 页 page span 和一个 6 页 page span 。

⭐如果找到_spanList[128] 都没有合适的 span ，则向系统使用 mmap 、 brk 或者是 VirtualAlloc 等方式申请128 页 page span 挂在自由链表中，再重复 1 中的过程。

//获取一个k页的span
Span* PageCache::NewSpan(size_t k)
{
	assert(k > 0);
	if (k > NPAGES - 1)
	{
		//页数大于128，直接向堆申请
		void* ptr = SystemAlloc(k);
		//Span* span = new Span;
		Span* span=_spanPool.New();
		//页号*页大小=该页的起始地址
		span->_pageId = (PAGE_ID)ptr >> PAGE_SHIFT;
		span->_n = k;

		_idSpanMap[span->_pageId] = span;//记录pageId和span映射关系,方便释放的时候通过页找到span
		//_idSpanMap.set(span->_pageId, span);//基数树优化
		return span;
	}
	//先检查第k个桶里面有没有span
	if (!_spanLists[k].Empty())
	{
		Span* kSpan= _spanLists[k].PopFront();
		
		//建立id和span的映射，方便CentralCache回收小块内存时，查找对应的span
		for (PAGE_ID i = 0; i < kSpan->_n; i++)
		{
			_idSpanMap[kSpan->_pageId + i] = kSpan;
			//_idSpanMap.set(kSpan->_pageId + i, kSpan);//基数树优化
		}
		return kSpan;//kSpan页返回给CentralCache
	}

	//检查后面桶里有没有span
	for (size_t i = k + 1; i < NPAGES; ++i)
	{
		if (!_spanLists[i].Empty())
		{
			Span* nSpan = _spanLists[i].PopFront();
			//Span* kSpan = new Span;
			Span* kSpan = _spanPool.New();

			//在nSpan的头部切下k页
			//k页span返回给CentralCache；nSpan再挂接到对应映射的位置
			kSpan->_pageId = nSpan->_pageId;
			kSpan->_n = k;

			nSpan->_pageId += k;//更新编号
			nSpan->_n -= k;//既是剩余页数也是映射位置

			_spanLists[nSpan->_n].PushFront(nSpan);//挂接

			//存储nSpan的首尾页号跟nSpan映射，方便PageCache回收内存时进行合并查找
			_idSpanMap[nSpan->_pageId] = nSpan;
			_idSpanMap[nSpan->_pageId + nSpan->_n - 1] = nSpan;//nSpan最后一个页号
			//_idSpanMap.set(nSpan->_pageId, nSpan);
			//_idSpanMap.set(nSpan->_pageId + nSpan->_n - 1, nSpan);//基数树优化

			//建立id和span的映射，方便CentralCache回收小块内存时，查找对应的span
			for (PAGE_ID i = 0; i < kSpan->_n; i++)
			{
				_idSpanMap[kSpan->_pageId+i] = kSpan;
				//_idSpanMap.set(kSpan->_pageId + i, kSpan);//基数树优化
;			}
			return kSpan;//kSpan页返回给CentralCache
		}
	}
	//走到这说明后面没有大页的span，这时需要去堆要一个128页的span
	//Span* bigSpan = new Span;
	Span* bigSpan = _spanPool.New();

	void* ptr = SystemAlloc(NPAGES - 1);
	bigSpan->_pageId = (PAGE_ID)ptr >> PAGE_SHIFT;
	bigSpan->_n = NPAGES - 1;

	_spanLists[bigSpan->_n].PushFront(bigSpan);

	return NewSpan(k);
}

如果申请页大于128页，则需要向堆申请，我们后续再说。
如果该桶还有span，则直接取出span给Central Cache，并哈希表保存页号和span的映射。
如果该桶没有，则从后面的桶中取span，并更新该span被切后的页号和页数再挂接到对应页号的桶上，建立页号和span的映射关系，方便后续回收。
如果后续桶也没有span，则向系统堆申请128页的span，挂接到128号桶，再递归调用切出要的页span。

释放内存

⭐如果central cache 释放回一个 span ， 则依次寻找 span 的前后 page id 的没有在使用的空闲 span ， 看是否可以合并，如果合并继续向前寻找。这样就可以将切小的内存合并收缩成大的 span ，减少 内存碎片 。

void PageCache::ReleaseSpanToPageCache(Span* span)
{
	//大于128页，直接还给堆
	if (span->_n > NPAGES - 1)
	{
		void* ptr = (void*)(span->_pageId << PAGE_SHIFT);
		SystemFree(ptr);
		//delete span;
		_spanPool.Delete(span);
		return;
	}
	//尝试span前后页合并，缓解内存外碎片问题
	while (1)
	{
		PAGE_ID prevId = span->_pageId - 1;
		auto ret = _idSpanMap.find(prevId);
		//如果没有前面的页号,不合并了
		if (ret == _idSpanMap.end())
		{
			break;
		}
		//如果前面的相邻页span在使用，不合并了
		Span* prevSpan = ret->second;

		/*auto ret =(Span*) _idSpanMap.get(prevId);
		if (ret == nullptr)
		{
			break;
		}
		Span* prevSpan = ret;*///基数树优化
		if (prevSpan->_isUse == true)
		{
			break;
		}

		//如果合并超过128页的span，没办法管理，不合并了
		if (prevSpan->_n + span->_n > NPAGES - 1)
		{
			break;
		}
		//合并
		span->_pageId = prevSpan->_pageId;
		span->_n += prevSpan->_n;

		//合并了要删除挂接在桶上的prevSpan
		_spanLists[prevSpan->_n].Erase(prevSpan);
		//delete prevSpan;
		_spanPool.Delete(prevSpan);
	}
	while (1)
	{
		PAGE_ID nextId = span->_pageId + span->_n;
		auto ret = _idSpanMap.find(nextId);
		if (ret == _idSpanMap.end())
		{
			break;
		}
		Span* nextSpan = ret->second;

		/*auto ret = (Span*)_idSpanMap.get(nextId);
		if (ret == nullptr)
		{
			break;
		}
		Span* nextSpan = ret;*///基数树优化

		if (nextSpan->_isUse == true)
		{
			break;
		}
		if (span->_n + nextSpan->_n > NPAGES - 1)
		{
			break;
		}
		//合并
		span->_n += nextSpan->_n;

		_spanLists[nextSpan->_n].Erase(nextSpan);
		//delete nextSpan;
		_spanPool.Delete(nextSpan);
	}
	//前后页合并后的span或者无法合并的span挂接到在PageCache对应桶
	_spanLists[span->_n].PushFront(span);
	span->_isUse = false;
	_idSpanMap[span->_pageId] = span;
	_idSpanMap[span->_pageId + span->_n - 1] = span;
	/*_idSpanMap.set(span->_pageId, span);
	_idSpanMap.set(span->_pageId + span->_n - 1, span);*///基数树优化
}

如果归还页大于128页，则直接还给堆，同样我们下面再讲。
首先向相邻前页合并，再向相邻后页合并。
如果相邻页没有就不合并跳出，如果相邻页正在使用就不合并跳出（这里为什么要使用_isUse而不使用_useCount==0呢？）如果合并页超过128，无法管理不合并跳出。
走完前后页合并逻辑后，将页挂接到Page Cache的桶并建立映射关系。

为什么要使用_isUse而不使用_useCount==0来判断相邻页是否正在被使用呢？

因为可能在给CentralCache划分span的时候，_usercount还未++，此时还是0，恰好有可能其他线程在PageCache判断此时划分给CentralCache的为0拿来合并，这就造成了线程安全的问题。

解决方法：span增加一个bool值，判断是否被使用

8️⃣申请释放联调

申请内存联调

接口ConcurrentAlloc联调程序申请内存：

static void* ConcurrentAlloc(size_t size)
{

		if (TLS_ThreadCache == nullptr)
		{
			//TLS_ThreadCache = new ThreadCache;
			static ObjectPooltcPool;
			TLS_ThreadCache = tcPool.New();
		}
		//cout << std::this_thread::get_id() << ";" << TLS_ThreadCache << endl;
		return TLS_ThreadCache->Allocate(size);
	}
}

释放内存联调

接口ConcurrentFree联调程序释放内存：

static void ConcurrentFree(void* ptr)
{
	Span* span = PageCache::GetInstance()->MapObjToSpan(ptr);//通过映射关系找到span
	size_t size = span->_objSize;
	assert(TLS_ThreadCache);
	TLS_ThreadCache->Deallocate(ptr, size);
}

9️⃣大于256Kb大块内存申请释放问题

大块内存申请问题

我们三级缓存的设计主要考虑的是小于256Kb的对象，那如果大于256Kb我们如何处理呢？

在Page Cache中我曾提到256Kb需要32页，但我们Page Cache设计的最大有128页。所以如果申请对象大于32页小于等于128页，我们可以直接向Page Cache申请内存

如果大于128页，我们就需要向系统堆空间申请内存

修改联调程序：大于256Kb我们就直接去Page Cache

Page Cache中大于128页向堆申请内存，小于等于则继续按逻辑获取页内存。

大块内存释放问题

大于128页，直接向堆释放内存

小于等于128页则继续走Page Cache逻辑页合并

修改释放联调程序：在这里能看出MapObjToSpan的价值，通过地址就可以映射找到span，并且为了获取存储对象大小，在span结构中增添_objSize。

Page Cache大于128页向堆释放内存。

并且在申请和释放的对象的过程中，我们使用了定长内存池创建释放对象，不使用new和delete使得可以和malloc进行性能比较。

性能对比及基数树优化

性能对比

对比多线程下设计的高并发内存池和malloc的性能：分别对相同大小内存和不同大小内存进行申请和释放。

#include"ConcurrentAlloc.h"

void BenchmarkMalloc(size_t ntimes, size_t nworks, size_t rounds)
{
	std::vector vthread(nworks);
	std::atomic malloc_costtime = 0;
	std::atomic free_costtime = 0;
	for (size_t k = 0; k < nworks; ++k)
	{
		vthread[k] = std::thread([&, k]() {
			std::vector v;
			v.reserve(ntimes);
			for (size_t j = 0; j < rounds; ++j)
			{
				size_t begin1 = clock();
				for (size_t i = 0; i < ntimes; i++)
				{
					v.push_back(malloc(16));//固定大小内存
					//v.push_back(malloc((16 + i) % 8192 + 1));//不同大小内存
				}
				size_t end1 = clock();
				size_t begin2 = clock();
				for (size_t i = 0; i < ntimes; i++)
				{
					free(v[i]);
				}
				size_t end2 = clock();
				v.clear();
				malloc_costtime += (end1 - begin1);
				free_costtime += (end2 - begin2);
			}
			});
	}
	for (auto& t : vthread)
	{
		t.join();
	}
	printf("%u个线程并发执行%u轮次，每轮次malloc %u次: 花费：%u ms\n",
		nworks, rounds, ntimes, (unsigned int)malloc_costtime);
	printf("%u个线程并发执行%u轮次，每轮次free %u次: 花费：%u ms\n",
		nworks, rounds, ntimes, (unsigned int)free_costtime);
	printf("%u个线程并发malloc&free %u次，总计花费：%u ms\n",
		nworks, nworks * rounds * ntimes, (unsigned int)(malloc_costtime + free_costtime));
}

void BenchmarkConcurrentMalloc(size_t ntimes, size_t nworks, size_t rounds)
{
	std::vector vthread(nworks);
	std::atomic malloc_costtime = 0;
	std::atomic free_costtime = 0;
	for (size_t k = 0; k < nworks; ++k)
	{
		vthread[k] = std::thread([&]() {
			std::vector v;
			v.reserve(ntimes);
			for (size_t j = 0; j < rounds; ++j)
			{
				size_t begin1 = clock();
				for (size_t i = 0; i < ntimes; i++)
				{
					//v.push_back(ConcurrentAlloc(16));
					v.push_back(ConcurrentAlloc((16 + i) % 8192 + 1));
				}
				size_t end1 = clock();
				size_t begin2 = clock();
				for (size_t i = 0; i < ntimes; i++)
				{
					ConcurrentFree(v[i]);
				}
				size_t end2 = clock();
				v.clear();
				malloc_costtime += (end1 - begin1);
				free_costtime += (end2 - begin2);
			}
			});
	}
	for (auto& t : vthread)
	{
		t.join();
	}
	printf("%u个线程并发执行%u轮次，每轮次concurrent alloc %u次: 花费：%u ms\n",
		nworks, rounds, ntimes, (unsigned int)malloc_costtime);
	printf("%u个线程并发执行%u轮次，每轮次concurrent dealloc %u次: 花费：%u ms\n",
		nworks, rounds, ntimes, (unsigned int)free_costtime);
	printf("%u个线程并发concurrent alloc&dealloc %u次，总计花费：%u ms\n",
		nworks, nworks * rounds * ntimes, (unsigned int)(malloc_costtime + free_costtime));
}

int main()
{
	size_t n = 1000;
	cout << "==========================================================" << endl;
	BenchmarkConcurrentMalloc(n, 4, 10);
	cout << endl << endl;
	BenchmarkMalloc(n, 4, 10);
	cout << "==========================================================" << endl;
	return 0;
}

ntimes：单轮申请、释放次数
nworks：线程数
rounds：轮次数
线程内部使用lambda表达式（C++11新特性），用于定义匿名函数，以值传递捕获k，以引用传递捕获其他父作用域的变量
使用原子变量atomic（C++11新特性），不会导致多线程下数据竞争，注意：printf没法直接大于atomic类型对象，需要强转。

测试结果：性能有待优化

性能瓶颈分析

我们使用VS自带的性能探查器进行时间检测。

根据检测结果，我们发现性能瓶颈点在MapObjToSpan的锁竞争上。

基数树优化

在tcmalloc中实际上在释放内存中对该处使用了基数树优化，那我们也学习使用基数树对我们的程序进行优化。

单层基数树是直接地址映射法进行直接哈希，也就是说页号与span直接对应。

// 一层基数树（直接哈希）
template 
class TCMalloc_PageMap1 {
private:
	static const int LENGTH = 1 << BITS;//页数目，BITS是存储页号需要多少位，假设一页8K=2^13；32位下存储页号需要=(32-13)=19位
	void** array_;//指针数组
public:
	typedef uintptr_t Number;
	explicit TCMalloc_PageMap1( ) {
		size_t bytes = sizeof(void*) << BITS;//需要开辟的字节数
		size_t alignSize = AMSize::_RoundUp(bytes, 1 << PAGE_SHIFT);//bytes>2^18（256*1024），按页大小对齐
		array_ = (void**)SystemAlloc(alignSize >> PAGE_SHIFT);//按页分配内存

		memset(array_, 0, sizeof(void*) << BITS);
	}

	//返回映射值
	void* get(Number k) const {
		if ((k >> BITS) > 0) {//页号不在页数目范围
			return NULL;
		}
		return array_[k];
	}

	//建立映射
	void set(Number k, void* v) {
		array_[k] = v;
	}
};

非类型模板参数BITS表示存储页号最多需要比特位的个数，32位下最大页号2^19次，此时BITS就是19，数组个数就是2^19，每个存储1个指针，所以数组总大小2^21=2M。

64位下最大页号2^51次，此时BITS就是51，数组个数就是2^19，每个存储1个指针，所以数字总大小2^54=2^24G，这实在是太大了，所以我们需要继续分层。

二层基数树实际上就是把BITS进行分层映射，在32位下，用前5比特位映射第一层，得到2^5个，后14位映射到第二层得到该页的span指针。总共占用大小2^5 * 2^14 * 4 =2^21=2M。和一层基数树开辟的大小是一样的，但是二层基数树最开始只需要开辟第一层，当需要某一页号进行映射再开辟第二层，而一层基数树一开始直接开辟全部。

//二层基数树（分层哈希）
template 
class TCMalloc_PageMap2 {
private:
	static const int ROOT_BITS = 5;//前5个比特位
	static const int ROOT_LENGTH = 1 << ROOT_BITS;//2^5第一层存储元素个数
	static const int LEAF_BITS = BITS - ROOT_BITS;//19-5=14,剩下14个比特位
	static const int LEAF_LENGTH = 1 << LEAF_BITS;//2^14第二层存储元素个数
	// Leaf node
	struct Leaf {
		void* values[LEAF_LENGTH];
	};
	Leaf* root_[ROOT_LENGTH];

	typedef uintptr_t Number;
	explicit TCMalloc_PageMap2( ) {	
		memset(root_, 0, sizeof(root_));//第一层空间清理
		PreallocateMoreMemory();
	}
	void* get(Number k) const {
		const Number i1 = k >> LEAF_BITS;//k低19位存储页号（合法的高位都是0），右移14位，获取19位中的前5位（[18,14]）确定第一层的下标
		const Number i2 = k & (LEAF_LENGTH - 1);//获取后13位与k与运算获得第二层的下标
		if ((k >> BITS) > 0 || root_[i1] == NULL)// 页号值超过范围或者页号映射的空间未开辟
		{
			return NULL;
		}
		return root_[i1]->values[i2];//返回映射的span指针
	}
	void set(Number k, void* v) {
		const Number i1 = k >> LEAF_BITS;
		const Number i2 = k & (LEAF_LENGTH - 1);
		assert(i1 < ROOT_LENGTH);
		root_[i1]->values[i2] = v;//建立映射
	}
	bool Ensure(Number start, size_t n) {
		for (Number key = start; key <= start + n - 1;) {
			const Number i1 = key >> LEAF_BITS;
			// 检查是否超出第一层下标范围
			if (i1 >= ROOT_LENGTH)
				return false;
			// 开辟空间
			if (root_[i1] == NULL)//第一层i1指向的空间未开辟 
			{
				static ObjectPoolLeafPool;
				Leaf* leaf = (Leaf*)LeafPool.New();
				memset(leaf, 0, sizeof(*leaf));
				root_[i1] = leaf;
			}
			//推进叶节点的地址
			key = ((key >> LEAF_BITS) + 1) << LEAF_BITS;//移到下一页空间首地址
		}
		return true;
	}
	void PreallocateMoreMemory() {
		//将第二层空间全部开好
		Ensure(0, 1 << BITS);
	}
};

设计Ensure函数进行需要页号时再开辟第二层空间，并且全部开辟内存消耗也不多，所以我们在构造的时候就全部开辟出来。

32位可以使用一层和二层基数树，64位下需要使用三层基数树，分析过程和二层实际一样，省略。

本项目只在32位平台使用基数数优化，我们使用单层基数树优化代码：

当我们需要建立映射关系时就调用基数树函数set：

_idSpanMap.set(span->_pageId, span);

当我们需要读取映射关系时就调用基数树函数get：

auto ret = (Span*)_idSpanMap.get(id);

MapObjToSpan函数此时无需加锁：

//通过页的起始地址找到页，从而映射找到span
Span* PageCache::MapObjToSpan(void* obj)
{
	//算页号
	PAGE_ID id = (PAGE_ID)obj >> PAGE_SHIFT;

	auto ret = (Span*)_idSpanMap.get(id);
	assert(ret != nullptr);
	return ret;
}

为什么无需加锁？

MapObjToSpan在进行读操作。

1.只有这两个函数中会去建立id和span的映射，也就是说会去写操作

2.基数树，写之前会提取开好空间，写数据过程中，不会动结构。

3.读写是分离的。线程1对这个位置读写操作时，线程2不可能对这个位置进行读写操作。

我们不会同时对同一个页进行读取映射和建立映射的操作，因为我们只有在释放对象时才需要读取映射，但是在这个位置地方进行读操作也绝不会进行写操作，因为我们在开始开辟这个位置的时候就已经写操作写好映射了，而建立映射的写操作都是在page cache进行的（页缓存中我们加了一把大锁，更不可能出现写操作的竞争）；也不可能2个线程对同一个位置进行读操作，因为读操作是在释放对象过程中，这期间有桶锁，所以也不可能产生竞争。

再次性能测试，优化结果：多线程场景下性能比malloc好。

本项目最终性能优化后只实现了在32位下运行，如若64位下则不应使用基数树优化。

源码：

https://gitee.com/hao-welcome/ConcurrentMemoryPool

你可能感兴趣的:(项目设计,高并发内存池,C++,tcmalloc学习,项目,性能对比)

django中路由配置规则的详细说明小赖同学啊 python django sqlite 数据库
在Django中，路由配置是将URL映射到视图函数或类视图的关键步骤，它决定了用户请求的URL会触发哪个视图进行处理。以下将详细介绍Django中路由配置的规则、高级使用方法以及多个应用配置的规则。基本路由配置规则1.项目级路由配置在Django项目中，根路由配置文件通常是urls.py，位于项目目录下。以下是一个简单的示例：#项目目录下的urls.pyfromdjango.contribimpo
Html5学习教程，从入门到精通， HTML5超链接应用的详细语法知识点和案例代码（18）知识分享小能手网页开发前端开发编程语言如门 html5 学习前端 html java 后端 css3
HTML5超链接应用的详细语法知识点和案例代码超链接（Hyperlink），也称为跃点链接，是互联网和文档编辑中的一种重要概念。超链接的定义超链接是指从一个网页指向一个目标的连接关系，这个目标可以是另一个网页，也可以是相同网页上的不同位置，还可以是一个图片、动画、程序、电子邮件地址、文件，甚至是一个音视频文件。如果点击了这个链接，当前页面的位置就会跳转到被链接的目标位置。在文档编辑中，超链接可以链
Django 初始化导入数据详解 jay丿 django sqlite 数据库
Django初始化导入数据详解在Django项目中，初始化数据导入是一个常见的需求，特别是在开发阶段或者部署新环境时，通常需要一些预置的数据来确保应用能够正常运行。Django提供了一种高效的方法来加载初始化数据，即通过fixtures机制。本文将详细介绍如何使用Django的fixtures功能来导入初始化数据。1.Fixtures机制概述Django默认会在应用的目录下查找名为fixtures
Django框架的全面指南：从入门到高级步入烟尘 Python超入门指南全册 django sqlite 数据库
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Spring+SpringMVC项目中的容器初始化过程 m0_74824044 面试学习路线阿里巴巴 spring java 后端
文章目录容器初始化过程初始化过程简单概括初始化过程初始化流程图Filter、Servlet等无法自动注入Bean容器初始化过程web.xml配置文件ssmdemocontextConfigLocation/WEB-INF/spring/spring-context.xml启动spring容器org.springframework.web.context.ContextLoaderListenero
项目风险分析报告怎么写项目风险评估
厘清项目背景、识别关键风险源、评估发生概率与影响、制定对应应对方案，是写好项目风险分析报告的四大核心步骤。看似简单的条目，却在实际操作中蕴含着深厚的方法论与经验积累。我个人特别强调“识别关键风险源”，因为若定位不准、范围过宽或过窄，都可能导致资源浪费或风险漏判。掌握准确的风险范围能帮助我们在后续的评估和应对阶段精准发力，避免将过多精力投入到不具备实际威胁的环节中。“识别关键风险源”的实质是通过系统
项目管理软件分类有哪些项目管理
按功能分类、按部署方式分类、按行业特点分类、按项目管理思想分类，是当下主流的项目管理软件分类方式。其中，按功能分类可细分为进度管理、任务协作、风险控制、成本管控等多种类型，能够针对项目所需功能进行精确选型。项目管理软件选择需匹配企业现状和管理需求，如同“好马配好鞍”，才能事半功倍、提高效率与质量。在众多分类中，我个人尤其推荐按功能分类，因为它能让不同部门或不同阶段的工作需要一目了然，也更容易帮助管
Canvas资源宝典：全面探索HTML5 Canvas技术支然苹
Canvas资源宝典：全面探索HTML5Canvas技术awesome-canvasAcuratedlistofawesomeHTML5Canvaswithexamples,relatedarticlesandposts.项目地址:https://gitcode.com/gh_mirrors/aw/awesome-canvas一、项目介绍项目概述awesome-canvas是由RaphaëlMor
探索创新：CanvasParticles - 点燃你的网页动态效果柏赢安Simona
探索创新：CanvasParticles-点燃你的网页动态效果去发现同类优质开源项目:https://gitcode.com/是一个开源的JavaScript库，专注于在HTML5Canvas上创建引人入胜的粒子动画效果。如果你是Web开发者，正在寻找一种方法为你的网站增添独特的视觉吸引力，那么这个项目绝对值得你深入了解。项目简介CanvasParticles提供了一套简洁而强大的API，让你能够
探索Coco-Web：一款强大的H5创作工具岑晔含Dora
探索Coco-Web：一款强大的H5创作工具去发现同类优质开源项目:https://gitcode.com/是一个开源的、基于Web的H5（HTML5）创作平台，旨在让开发者和设计师能够轻松地创建互动式的内容和应用。通过其直观的界面和丰富的功能，无论你是编程高手还是初学者，都能够利用Coco-Web制作出富有吸引力的数字内容。技术分析Coco-Web基于现代Web技术构建，包括：React.js:
探索CoreHTML5Canvas：创作动态Web图形的新工具郁英忆
探索CoreHTML5Canvas：创作动态Web图形的新工具去发现同类优质开源项目:https://gitcode.com/是一个强大的JavaScript库，专为开发者设计，旨在简化和增强在Web上创建交互式和动画图形的能力。这个项目利用HTML5Canvas元素，提供了一个简洁且高效的API，让开发人员可以轻松地构建出丰富的2D渲染效果。技术分析HTML5Canvas是HTML5的一个重要特
JavaEE 项目常见错误解决方案一弦一柱 JavaEE 常见错误中文乱码 JSP 404
JavaEE项目常见错误解决方案数据库连接JavaBean获取不到数据库字段值或出现意料之外的值业务中出现null或""404NOTFOUNDGET请求中文乱码form表单提交中文乱码最近的实训中，练了一个比较基础的项目，JSP+Servlet+JavaBean，完成两张表的CRUD操作，前端使用Bootstrap和JQuery，交互使用AJAX，IDE选用Eclipse,在时间比较仓促的情况下完
LLM大语言模型项目知识点总结——Gunicorn、Flask和Docker NLP的小Y 语言模型 gunicorn flask
一、Flask框架1.1Blueprint流程：创建蓝图对象；在蓝图上定义路由和视图函数；在应用程序对象上注册蓝图(url_prefix参数指定蓝图的URL前缀)1.2CORS(app)Cross-OriginResourceSharing处理跨域的需求[email protected]_request钩子函数,在正常执行的时候插入一些东西，先执行这个东西然后再正常执行（hook）；并且先执行flas
使用Spring Boot集成Kafka开发：接收Kafka消息的Java应用 YazIdris java spring boot kafka
Kafka是一个分布式的流处理平台，它具有高吞吐量、可扩展性和容错性的特点。SpringBoot提供了与Kafka集成的便捷方式，使得开发者可以轻松地创建Kafka消息接收应用。本文将介绍如何使用SpringBoot集成Kafka开发，以及如何编写Java代码来接收Kafka消息。首先，确保你已经安装了Kafka和Zookeeper，并启动了它们。接下来，创建一个新的SpringBoot项目，并添
使用Nginx进行反向代理HTTPS服务 TechABC nginx https 运维服务器
Nginx是一款高性能的Web服务器和反向代理服务器，它能够处理大量并发连接并提供快速的服务。在本文中，我们将学习如何使用Nginx来配置反向代理HTTPS服务。下面是一个详细的配置示例，以帮助您实现此目标。首先，您需要确保已经安装了Nginx。您可以通过以下命令来安装Nginx：sudoaptupdatesudoaptinstallnginx安装完成后，您可以编辑Nginx的配置文件。该文件通常
Sijia_y的个人经历以及计算机行业发展 Sijia_y python
如今互联网发展的速度甚是快，以至于技术都在更新迭代。稍有不注意可能就会被淘汰甚至是替代。作为一名中专生，我的成绩也是很差。因为高中考不上的缘故，来到了江苏上学。计算机行业我了解的并不是很多，当时只是听说工资高，铁饭碗。我是一个很懒的人，也是很贪玩。并没有学习很高的兴趣。我接触编程语言，完全是因为我的朋友。因为他是自学C语言的，后面他参加比赛得奖了。我就觉得非常厉害。我就开始学习Python，学会一
前端 UI 框架发展史之道前端前端知识点前端 ui 学习程序人生前端框架
上一小节我们了解了前端UI框架的作用和意义，接下来我们再来了解前端UI框架的发展历史。虽然是讲历史，但我不想讲得太复杂，也不打算搞什么编年史记录啥的，毕竟我们不是来学历史的。我会简单描述一下前端UI框架的发展历程，同时在这个过程中，把我自己的一些感受和想法分享给你。你可以以轻松娱乐的心态来看这篇文章，同时也大概了解一下我们前端开发是怎么发展到现在这样子的。这样可以让你更好地去理解将要学习的前端UI
Spring Boot 集成 Kafka m0_74824592 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
Flask框架中局部刷新页面 oliver.chau Python 前端开发 flask python 后端
在Flask中使用AJAX仅刷新leftMenue.html你的项目使用Flask，想要在添加网站后，仅刷新leftMenue.html而不刷新整个页面，可以使用AJAX（推荐）。✅1.在app.py里创建一个返回leftMenue.html的路由在Flask里，我们需要一个专门的API来返回最新的leftMenue.html。fromflaskimportFlask,render_templat
高斯Splatting：3D 重建与新视图合成的综述三谷秋水人工智能机器学习计算机视觉计算机视觉人工智能深度学习
24年5月来自挪威大学的论文“GaussianSplatting:3DReconstructionandNovelViewSynthesis,aReview”。基于图像的3D重建是一项具有挑战性的任务，涉及从一组输入图像中推断出目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而备受关注。这篇论文重点介绍3D重建的最新技术，包括生成新的、未见过的视图。高斯Splatting方法的最新发
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
工作流编排利器：Prefect 全流程解析船长@Quant Python 金融科技 prefect polars 工作流编排数据处理
工作流编排利器：Prefect全流程解析本文系统讲解了Prefect工作流编排工具，从基础入门到高级应用，涵盖任务与流程管理、数据处理、执行器配置、监控调试、性能优化及与其他工具集成等内容，文末项目实战示例，帮助读者全面回顾Prefect知识点。Prefect官方文档https://docs.prefect.io/v3/get-started/index一、Prefect基础入门（一）关于Pref
visionPro8.2r紧急许可重复利用方法吾与谁归in 视觉编辑器
VisionPro安装，个人学习使用VisionPro安装，紧急许可重复使用方法，目前仅是8.2r,在这备份一下。建议首次安装时进行备份紧急激活许可（1-4次激活都可以，第五次凉凉）。1.以管理员身份运行CognexSoftwareLicensingCenter软件2、配置连接类型一定要设置离线3，安装紧急许可这里第一个显示broken是因为第一次紧急许可过期了，第一个显示ok是新激活的紧急许可。
C#使用Winform实现简单的编辑器：编译、运行、关键字、注释高亮显示。吾与谁归in c#java c++
发布文章的目的即是学习也是分享保存。目录1、简单的界面设计2、实现代码（1）用到的变量字段（2）窗体初始化、加载（3）执行操作：编译、运行（4）编译功能方法（5）高亮显示（6）其它3、运行效果4、说明1、文本发生变化的重绘滚动（闪烁）问题。2、光标位置显示问题。3、关键字高亮显示后，直接在后面输入文字格式问题。1、简单的界面设计程序分为脚本编辑框，操作、结果显示栏。脚本编辑栏：可以编写自己想要的代
tcc编译器教程6 进一步学习编译gmake源代码刘阿去学习 c语言
本文以编译gmake为例讲解如何使用tcc进行复杂一点的c代码的编译1简介前面主要讲解了如何编译lua解释器,lua解释器的编译很简单也很容易理解.当然大部分c语言程序编译没那么简单,下面对前面的gmake程序进行编译.2gmake源码结构首先打开之前tcc-busybox-for-win32\gmake文件夹,具体文件如下主要有3个文件夹和3个文件,分别为0.tcc-主要为编译所用的信息lib-
入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
【学习思维模型】宇希啊思维模型学习
学习思维模型一、理解类模型二、记忆类模型三、解决问题类模型四、结构化学习模型五、效率与习惯类模型六、高阶思维模型七、实践建议八、新增学习思维模型**1.波利亚问题解决四步法****2.主动回忆（ActiveRecall）****3.鱼骨图（因果图/IshikawaDiagram）****4.MECE原则（MutuallyExclusive,CollectivelyExhaustive）****5.
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(