最近在研究Vulkan,在Vulkan中使用内存是个麻烦的过程,而且容易用错,今天就给大家分享下Vulkan的内存模型。
内存,在任何时候都是个稀缺的资源,内存管理更是个让人望而却步的事情。在这个崇尚用户体验的今天,不管是底层系统还是上层应用都在追求极致的性能优化,内存优化也是重中之重。从系统层的分页,池化,脏页回收,连续大内存到上层的优化的数据结构,内存共享,压缩等都在不停地压榨系统内存以获得更高性能的应用程序。
我认为简单地理解Vulkan区别于OpenGL的最大特点就是Vulkan可以让应用开发者细粒度的控制,在内存方面也是如此。因为Vulkan认为应用自身对于内存占用是最清楚的,内存的创建释放,生命周期都是应用自身的行为导致的。面对复杂的应用场景,很难有通用的优化策略解决所有问题。不管是通过虚拟机还是驱动程序,帮助应用进行内存管理永远是低效的。
基于上述原因,Vulkan将内存管理的工作交给了开发者负责,如何分配释放内存,怎样制定内存策略都由开发者自己决定,这无疑是返璞归真的至理。但话说回来这样的机制对开发者来说却不是友好的,所以我们更需要知道Vulkan的内存模型才能更高效地管理。
Vulkan中的内存分为两种:宿主内存和设备内存。
这两种内存的特点是宿主内存比设备内存慢。但是宿主内存的容量通常更大。另一方面来说,设备内存是直接对物理设备可见的,因此它更有效率也更为快速。
Vulkan使用宿主内存来存储API的内部数据结构。Vulkan提供了内存分配器机制,允许应用程序控制宿主机端的内存分配。如果应用程序不使用分配器机制,那么Vulkan将使用一个默认的分配器来管理内存和数据结构。
主机内存管理通过以下数据结构来完成:
typedef struct VkAllocationCallbacks {
Void* pUserData;
PFN_vkAllocationFunction pfnAllocation;
PFN_vkReallocationFunction pfnReallocation;
PFN_vkFreeFunction pfnFree;
PFN_vkInternalAllocationNotification pfnInternalAlloc;
PFN_vkInternalFreeNotification pfnInternalFree;
} VkAllocationCallback
pUserData是由用户自定义的值,因为每次回调的时候这个值可能会变。
PFN_vkAllocationFunction是一个指向应用程序定义的内存分配函数的指针,用来管理Vulkan API创建的数据结构产生的内存。
PFN_vkReallocationFunction是一个指向应用程序定义的内存重分配函数的指针,用来重新管理Vulkan API创建的数据结构产生的内存。
PFN_vkFreeFunction是一个指向应用程序定义的内存释放函数。
PFN_vkInternalAllocationNotification是一个指向应用程序定义的函数的指针,当被Vulkan实现调用时,就会给应用程序发内存分配的通知
PFN_vkInternalFreeNotification是一个指向应用程序定义的函数的指针,当被Vulkan实现调用时,就会给应用程序发释放内存的通知
Vulkan对宿主内存的要求就是内存地址是对齐的,这是因为某些高性能CPU指令在对齐的内存地址上效果最佳。通过假定存储CPU端数据结构的分配是对齐的,Vulkan可以无条件使用这些高性能指令,从而提供显著的性能优势。
设备内存, 即GPU内存,它对于物理设备是直接可见的, 物理设备可以直接读取其中的内存区块。图像对象,缓存对象以及UBO(uniform buffer objec)都是在设备内存端分配的。
用vkGetPhysicalDeviceMemoryProperties函数查询后可以得到一个VkPhysicalDeviceMemoryProperties结构体中记载了物理设备上的内存属性。
void vkGetPhysicalDeviceMemoryProperties(
VkPhysicalDevice physicalDevice,
VkPhysicalDeviceMemoryProperties* pMemoryProperties
)
typedef struct VkPhysicalDeviceMemoryProperties {
Uint32_t memoryTypeCount;
VkMemoryType memoryTypes[VK_MAX_MEMORY_TYPES];
Uint32_t memoryHeapCount;
VkMemoryHeap memoryHeaps[VK_MAX_MEMORY_HEAPS];
} VkPhysicalDeviceMemoryProperties
VkResult vkAllocateMemory (
VkDevice device;
const VkMemoryAllocateInfo* allocateInfo,
const VkAllocationCallbacks* allocator,
VkDeviceMemory* memory
)
typedef struct VkMemoryAllocateInfo {
VkStructureType type;
Const void* pNext;
VkDeviceSize allocationSize;
uint32_t momoryTypeIndex; // 内存类型索引
} VkMemoryAllocateInfo
用vkAllocateMemory函数来分配VkDeviceMemory类型的设备内存对象。
type代表类型,类型必须是VK_STRUCTURE_TYPE_MEMORY_ALLOCATE_INFO.
allocationSize指定了分配的内存大小(字节)
memoryTypeIndex的值就可以用刚刚的辅助函数获取。
pNext扩展指针可以填入一个VkMemoryDedicatedAllocateInfo结构体,这样就可以在分配内存的时候指定一个专用Buffer或Image对象.
Void VkFreeMemory (
VkDevice device,
VkDeviceMemory memory,
const VkAllocationCallbacks* allocator
)
VKDevice设备句柄
VKDeviceMemory 准备释放的内存对象
allocator 控制内存释放的分配器对象
解决了内存分配的问题,但GPU绘制过程中需要各种资源,而资源通常是存储在CPU内存中的,和GPU内存并不互通,无法被GPU直接访问,因此我们需要一个方法把资源放到GPU内存中而且能被GPU按照一定的规矩访问。
Buffer是最简单的资源类型,可以用来储存线性的结构化的数据,也可以储存内存中原始字节。它可以通过调用命令缓冲区来绑定,交由GPU硬件操作。Vulkan中用VkBuffer句柄来指示Buffer对象,并且用以下方法进行创建:
typedef struct VkBufferCreateInfo {
VkStructureType sType;
const void* pNext;
VkBufferCreateFlags flags;
VkDeviceSize size;
VkBufferUsageFlags usage;
VkSharingMode sharingMode;
uint32_t queueFamilyIndexCount;
const uint32_t* pQueueFamilyIndices;
} VkBufferCreateInfo;
VkResult vkCreateBuffer(
VkDevice device,
const VkBufferCreateInfo* pCreateInfo,
const VkAllocationCallbacks* pAllocator,
VkBuffer* pBuffer
);
flags是一个VkBufferCreateFlagBits类型的枚举
size是VkBuffer映射的一段区域的内存大小,即数据大小。
usage是Buffer的具体功用,例如用作顶点缓存,索引缓存,转移缓存
sharingMode明确了Buffer被多个队列共享访问的模式,一般选VK_SHARING_MODE_EXCLUSIVE。
queueFamilyIndexCount和pQueueFamilyIndices代表访问这个Buffer的队列族
pNext在Vulkan1.1版本后,允许我们使用VkExternalMemoryBufferCreateInfo结构体来创建一个用于存储的外部缓冲,在Vulkan1.2版本后,允许我们使用VkBufferOpaqueCaptureAddressCreateInfo结构体来为Buffer要求具体的设备地址。
Image相对复杂,其具有特殊的布局和格式。Image的布局(layout)对内存有特殊需求,主要有两种主要的平铺模式:
linear - 其中的图像(Image)数据线性排列在内存中。
optimal - 其中的图像(Image)数据以高度优化的模式进行布局,可以有效利用设备的内存子系统。
线性布局(linear layout)适合连续的单行的读写,但是大多数图形操作都涉及到跨行读写纹理元素,如果图像自身的宽度非常宽,相邻行的访问在线性布局中会有非常大的跳转。这可能会导致性能问题。
优化布局(optimal layout)的好处是内存数据根据不同内存子系统进行优化,比如将所有的纹理像素都优化到一块连续的内存区域中,加快内存处理速度。下图很形象地说明了两种布局的优劣势:
GPU通常倾向于使用优化布局以实现更有效的渲染。但优化部分因不同品牌有差异且是内部逻辑,所以CPU想要读取图像信息还需要多一层转换。
本文讲述了Vulkan的内存布局和管理方式,希望能对大家后续实现Vulkan程序有所帮助,在此建议大家尽量做到内存复用,因内存分配和释放都需要昂贵的开销。连续内存对象可以享受更好的缓存利用率,内存对齐的数据性能更优。
微信公众号首发,欢迎关注:江湖修行,欢迎关注,转发,评论交流