Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)

版本记录

版本号 时间
V1.0 2018.10.06 星期六

前言

很多做视频和图像的,相信对这个框架都不是很陌生,它渲染高级3D图形,并使用GPU执行数据并行计算。接下来的几篇我们就详细的解析这个框架。感兴趣的看下面几篇文章。
1. Metal框架详细解析(一)—— 基本概览
2. Metal框架详细解析(二) —— 器件和命令(一)
3. Metal框架详细解析(三) —— 渲染简单的2D三角形(一)
4. Metal框架详细解析(四) —— 关于GPU Family 4(一)
5. Metal框架详细解析(五) —— 关于GPU Family 4之关于Imageblocks(二)
6. Metal框架详细解析(六) —— 关于GPU Family 4之关于Tile Shading(三)

About Raster Order Groups - 关于光栅顺序组

了解精确控制访问相同像素坐标的并行片段着色器线程的顺序。


Overview - 概览

Metal 2引入了栅格顺序组,可以从片段着色器中进行有序存储器访问,并简化渲染技术,例如与顺序无关的透明度,双层G缓冲区和体素化(voxelization)

给定一个包含两个重叠三角形的场景,Metal保证在绘制调用顺序中进行混合,从而产生三角形连续渲染的错觉。 图1显示了一个绿色三角形部分遮挡的蓝色三角形。

然而,在幕后,这个过程是高度平行的;多个线程同时运行,并且无法保证后三角形的片段着色器在前三角形的片段着色器之前已执行。 图1显示虽然两个线程同时执行,但是在绘制调用顺序中进行混合。

Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)_第1张图片
Figure 1 Blending of two triangles in draw call order

片段着色器中的自定义混合函数可能需要在根据前三角形片段应用该函数之前读取后三角形片段着色器的结果。 由于并发性,此读取 - 修改 - 写入序列可以创建竞争条件。 图2显示了线程2试图同时读取线程1正在写入的相同内存。

Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)_第2张图片
Figure 2 Attempting to simultaneously read and write the same memory

Raster Order Groups for Overcoming Access Conflict - 用于克服访问冲突的光栅顺序组

光栅顺序组通过同步以相同像素坐标和样本为目标的线程(如果激活每个样本着色)来克服此访问冲突。 您可以通过使用属性限定符注释指向内存的指针来实现栅格顺序组。 然后通过每个像素的提交顺序完成对这些指针的访问。 硬件在当前线程继续之前等待与当前线程重叠的任何旧片段着色器线程完成。

图3显示了栅格顺序组如何同步两个线程,以便线程2在尝试读取该内存之前等待写入完成。

Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)_第3张图片
Figure 3 Synchronized threads serially reading and writing the same memory

Extended Raster Order Groups with Metal 2 on A11 - 在A11上使用Metal 2扩展光栅顺序组

A11上的Metal 2扩展了具有附加功能的栅格顺序组。 首先,它允许同步图像块和线程组存储器的各个通道。 其次,它允许创建多个订单组,为您提供更细粒度的同步,并最大限度地减少线程等待访问的频率。

A11图形处理单元(GPU)上的光栅顺序组的附加功能提高性能的示例是延迟着色。 传统上,延迟着色需要两个阶段。 第一阶段填充G缓冲区并生成多个纹理。 第二阶段消耗这些纹理并计算着色结果以渲染光量,如图4所示。

Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)_第4张图片
Figure 4 Deferred shading implemented in two phases

因为中间纹理被写入设备存储器(device memory)并从设备存储器读取,所以延迟着色是带宽密集的。 A11 GPU能够利用多个顺序组将两个渲染阶段合并为一个,从而消除了对中间纹理的需求。 此外,它可以将G缓冲区保持在仍保留在本地图像块存储器中的区块大小的块( tile-sized chunks)中。

为了演示A11 GPU的多个顺序组如何提高延迟着色的性能,图5显示了传统GPU如何为照明阶段调度线程。 负责第二个灯的线程必须等待先前线程的完成访问才能开始。 即使访问不相互冲突,此等待也会强制执行这两个线程以串行方式运行。

Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)_第5张图片
Figure 5 Scheduling threads for a deferred shading lighting phase

图6显示了多个顺序组如何允许您同时运行非冲突读取,两个线程在执行结束时进行同步以累积灯光。 您可以通过将三个G缓冲区字段(反照率,法线和深度(albedo, normal, and depth))声明为第一组,并将累积的光照结果设置为第二组来实现此目的。 A11 GPU能够分别对两组进行排序,而对第二组的写入不需要在第一组中进行读取等待。

Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)_第6张图片
Figure 6 Scheduling threads with raster order groups

使用多个顺序组,更多线程可以同时运行,从而实现更多并行性和更高的性能。

后记

本篇主要讲述了光栅顺序组,感兴趣的给个赞或者关注~~~

Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四)_第7张图片

你可能感兴趣的:(Metal框架详细解析(七) —— 关于GPU Family 4之关于光栅顺序组(四))