阅读游戏引擎架构

通过malloc()/free()或C++的全局new/delete运算符动态分配内存——又称为堆分配——通常是非常慢的。低效主要来自两个原因。首先，堆分配器是通过的设施，它必须处理任何大小的分配请求，从1字节到1000兆字节亦然。这需要大量的管理开销，导致malloc()/free()函数变得比较缓慢。其次，在多数操作系统上，处理请求，再切换至原来的程序，这些上下文切换可能消耗非常多的时间。

常见的开发经验:任何游戏引擎都无法避免动态内存分配，所以多数游戏引擎会实现一个或多个定制分配器。好处有二：第一，定制分配器从预分配的内存中完成分配请求，这样，分配过程都在用户模式下执行，完全避免了进入操作系统的上下文切换。第二，通过定制分配器的使用模式做出多个假设，定制分配器可以比通用的堆分配器高效得多。

1、基于堆栈的分配器 2、双端堆栈分配器 3、池分配器 4、含对齐功能的分配器 5、单帧和双缓存内存分配器

在支持虚拟内存的操作系统上，内存碎片并不是大问题。虚拟内存系统把不连续的物理内存块——每块称为内存页——映射至虚拟地址空间，使内存页对于应用程序来说看上去是连续的。在物理内存不足时，久没使用的内存页会写进磁盘，有需要时再重载到物理内存。多数嵌入式设备并不能负担得起虚拟内存的实现。有些当代游戏机，虽然技术上支持虚拟内存，但由于其导致的开销，多数游戏引擎不会使用虚拟内存。

前置递增++p和后置递增p++。前置递增运算符对运算子递增后，再传回其值；后置递增运算符则传回之前未递增的值。所以前置递增只需简单得把指针或迭代器就地递增，再传回它的参数。后置递增必须先备份旧值，把指针或迭代器递增，并传回之前的备份。对于指针或整数索引而言，除了在紧凑的循环中，一般不会造成大问题。然而，对迭代器来说，后置递增可能导致效能损失，因为运算子备份及返回旧值时，或必须进行复杂的迭代器对象构建及复制。

存取主系统内存是缓慢的操作。通常需要几千个处理器周期才能完成。为了降低读/写主内存的平均时间。现代处理器会采用高速的内存缓存。

缓存是一种特殊的内存，CPU读/写缓存的速度比主内存快得多。当首次读取某区域的主内存，该内存小块会载入高速缓存。这个内存块单位称为缓存线，缓存线通常介于8至512字节，具体值视微处理器架构所定。若后来再读取内存，而该数据已在缓存中，那么数据就可以直接从缓存载入寄存器，这比读取主内存快的多。仅当要求的数据不在缓存中，才必须存取朱内存。这种情况名为缓存命中失败。每当出现缓存命中失败，程序便要被逼暂停，等待缓存线自助内存更新后才能继续进行。

一级及二级缓存：在CPU芯片上的一级缓存，在主板上的二级缓存，近来二级缓存也移至CPU芯片上。

指令缓存：预载即将执行的机器码；数据缓存：用来加速自主内存读/写数据。程序变慢，有可能因为指令缓存命中失败，或是数据缓存命中失败。

避免数据缓存命中失败最佳办法：把数据编排进连续的内存块中，尺寸越小越好，并且要顺序访问这些数据。这样便可以把数据缓存命中失败的次数减至最少。当数据是连续的（不会在内存中跳来跳去），那么单次命中失败便会尽可能最多的相关数据载入单个缓存线。若数据量少，更可能塞进单个缓存线。

由于编译器和链接器决定了代码的内存布局，会给人无法控制指令缓存命中失败。其实，C/C++链接器有一些简单规则：

1、单个函数的机器码几乎总是置于连续的内存（内联函数除外）。

2、编译器/链接器按函数在翻译单元源代码（.cpp文件）中的出现次序排列内存布局。

避免指令缓存命中失败的经验法则：

1、高效能代码的体积越小越好，体积以机器码指令数目为单位。（编译器和链接器会负责把函数置于连续内存中）。

2、性能关键的代码段落中，避免调用函数。

3、若要调用某函数，就把该函数置于最接近调用函数的地方，最好是紧接调用函数的前后，而不要把该函数置于另一翻译单元（因为这样会完全无法控制两个函数的距离）。

4、慎重使用内联函数。内联小型函数能增加效能。然而过多的内联函数会增大代码体积，使得性能关键代码再不能完全装进缓存。假设有一个处理大量数据的紧凑循环，若循环内的代码不能完全装进缓存，每个循环迭代便会产生至少两次指令缓存命中失败。遇到这种情况，最好重新思考算法或代码实现，看看能否减少关键循环中的代码量。

阅读游戏引擎架构

你可能感兴趣的:(阅读游戏引擎架构)