0向往0

剖析虚幻渲染体系（12）- 移动端专题Part 2（GPU架构和机制）

12.4 移动渲染技术要点
- 12.4.1 Tile-based (Deferred) Rendering
- 12.4.2 Hierarchical Tiling
- 12.4.3 Early-Z
- 12.4.4 Transaction Elimination
- 12.4.5 Forward Pixel Kill
- 12.4.6 Hidden Surface Removal
- 12.4.7 Low Resolution Z pass
- 12.4.8 FlexRender
- 12.4.9 Universal Bandwidth Compression
- 12.4.10 Arm Frame Buffer Compression
- 12.4.11 Index-Driven Vertex Shading
- 12.4.12 Pixel Local Storage
- 12.4.13 Subpass
- 12.4.14 Adaptive Scalable Texture Compression
- 12.4.15 big.LITTLE Core
- 12.4.16 其它技术要点
12.5 移动GPU架构和机制
- 12.5.1 移动GPU概述
- 12.5.2 移动GPU运行机制
- 12.5.3 并行、卡顿和延时
团队招员
特别说明
参考文献

12.4 移动渲染技术要点

笔者这段时间研读了近年来Siggraph、GDC关于移动端的Papers，查阅了Qualcomm、Arm、PowerVR等移动端GPU厂商和部分移动设备厂商的开发指南，在本章总结一下目前移动端常见的专用渲染技术。

具体见后面的参考文献列表。

12.4.1 Tile-based (Deferred) Rendering

TBR全称是Tile-based Rendering，译为基于分块的渲染。它是目前移动端GPU架构中应用非常广泛的一种技术，用来加速渲染，减少带宽和能耗。

TBDR全称是Tile-based Deferred Rendering，是TBR的一种改进版，意为基于分块的延迟渲染，最早由PowerVR应用于GPU芯片中。它最显著的不同点在于通过了Early-Z测试的像素不会立即执行像素着色器，而是先标记该像素属于哪个图元。当Tile处理完所有图元（场景中的所有物体），再绘制Tile上所有做了标记的像素。TBDR做到了硬件层级的遮挡像素剔除，减少OverDraw，减少带宽和内存访问。

PowerVR的TBDR在开始渲染之前，会捕获整个场景，这样被遮挡的像素在被像素着色器之前就可以被识别和剔除。每个Tile都被光栅化并单独处理，由于渲染的尺寸很小，使得允许所有数据都保存在非常快的Tile内存中。

与TB(D)R对应的是用于PC的立即渲染（Immediately Rendering，IMR）模式。IMR、TBR、TBDR架构的对比图如下：

IMR、TBR、TBDR架构运行示意图。其中红色椭圆表示带宽高，会引发性能瓶颈。

对于IMR模式的GPU，若忽略并行处理逻辑，则执行的伪代码如下所示：

for draw in renderPass:
    for primitive in draw:
        for vertex in primitive:
            execute_vertex_shader(vertex)
        if primitive not culled:
            for fragment in primitive:
                execute_fragment_shader(fragment)

IMR的GPU硬件架构如下所示：

其硬件数据流和内存交互图如下：

IMR模式的GPU的优势在于，顶点着色器和其它几何体相关着色器的输出可以保留在GPU内的芯片上。这些着色器的输出可以存储在FIFO缓冲区，直到管道中的下一阶段准备使用数据，GPU可以使用很少的外部内存带宽存储和检索中间几何结果。

IMR模式的GPU的劣势在于，像素着色在屏幕上跳跃，因为三角形按绘制顺序处理，数据流中的任何三角形都可能覆盖屏幕的任何部分（下图）。意味着活动工作集是整个framebuffer的大小。例如，考虑一个分辨率为1440p的设备，使用32位每像素(BPP)的颜色，32位每像素的填充深度/模板，将提供30MB的总工作集，若全部存储在on chip上，数据量过大，因此必须存储在DRAM的off chip之外。

IMR的并行渲染示意图，随机访问遍布全屏幕，导致缓冲命中率大大降低。

在处理高分辨率画面时，放置在内存上的带宽负载可能非常高，因为每个像素都有多个读-修改-写操作。可以通过将最近访问的framebuffer部分保持在靠近GPU的位置来减轻高带宽负载。

TB(D)R的GPU则与IMR GPU不同，它先将屏幕划分成若干个固定大小的区域，然后再执行着色计算。下面是TBR的执行伪代码：

# Pass one
for draw in renderPass:
    for primitive in draw:
        for vertex in primitive:
            execute_vertex_shader(vertex)
        if primitive not culled:
            append_tile_list(primitive)

# Pass two
for tile in renderPass:
    for primitive in tile:
        for fragment in primitive:
            execute_fragment_shader(fragment)

TB(D)R GPU的硬件架构如下所示：

其硬件数据流和内存交互图如下：

TB(D)R的优势在于，Tile只占整个framebuffer的一小部分。因此，可以将整个颜色、深度和模板的工作集存储在快速的 on-chip RAM上，与GPU着色器核心紧密耦合。GPU用于深度测试和混合透明像素所需的framebuffer数据无需访问外部内存即可获得，通过减少GPU对通用framebuffer操作所需的外部内存访问数量，可以显著提高像素密集型内容的能源效率。此外，多数情况存在一个深度和模板缓冲，它们是瞬态的，只需要在着色过程中存在。如果明确告诉GPU驱动程序不需要保存附件（Attachment），那么驱动程序就不会将它们写回主存。

以下图形API可以指示驱动程序丢弃附件：

OpenGL ES 2.0：glDiscardFramebufferEXT

OpenGL ES 3.0：glInvalidateFramebuffer

Vulkan：恰当的渲染通道storeOp

值得一提的是，由于每个Tile的尺寸通常不会很大，使得GPU计算单元访问单个Tile内的数据具有良好的邻域性，能够提升Cache命中率。

当然，天下没有免费的午餐，TB(D)R同样存在一些劣势。例如，GPU必须将几何通道的输出(每个顶点的变化数据和Tile的中间状态)存储到主内存中，着色通道随后读取这些数据。因此，需要在与几何图形相关的额外带宽成本和为framebuffer数据节省的带宽之间取得平衡。同样重要的是要考虑到一些渲染操作，比如曲面细分，对于TBR来说是不成比例的高消耗。曲面细分等操作被设计来适应IMR模式架构的优势，因为几何数据的爆炸可以在on-chip FIFO缓冲区内缓冲，而不是被写回主存储器。

下面以Qualcomm Adreno系列GPU加以说明TB(D)R的架构、运行过程、涉及的渲染技术和优化技巧。

TB(D)R的渲染不同于IMR模式，绘制过程分为分块（Binning Pass）、渲染（Rendering Pass）、解析（Resolve Pass）3个阶段。

分块（Binning Pass）过程大致如下：

设定每个Bin（也被称为Tile）的固定大小（2的N次方，长宽通常相同，具体尺寸因GPU厂商而异，如16x16、32x32、64x64），根据Frame Buffer尺寸设置可见数据流。
转换图元坐标。注意此阶段处理的是索引和顶点数据，某些GPU（如Adreno）会用特殊的简化过的shader（而非完整的Vertex Shader）来处理坐标，以减少带宽和能耗。此阶段通常只有顶点的位置有效，其它顶点数据（纹理坐标、法线、切线、顶点颜色）都会被忽略。
遍历所有图元，标记所有图元覆盖到的块，将可见性数据写入到被覆盖的块数据流中。
将可见性数据流写回系统显存中。

Binning阶段的运行示意图如下：

渲染（Rendering Pass）过程大致如下：

初始化渲染Pass。
遍历所有分块，对每个分块执行以下操作：
- 利用分块的可见性数据流，执行绘制调用。
- 光栅化图元。
- 像素操作（像素着色器、深度模板测试、Alpha测试、混合）。
- 写入像素数据（颜色、深度、模板等等）到分块芯片上的缓冲区（又被称为On-Chip Memory、GMEM、Tiled Memory）。

Rendering阶段的运行示意图如下：

如果GPU上存在多个Tile处理单元，则可以同时处理多个Tile，并且Tile处理单元之间是相互独立的：

解析（Resolve Pass）阶段过程如下：

如果开启了MSAA，在GMEM上的解析颜色、深度等数据（求平均值）。可以减少后续步骤GMEM传输到系统显存的数据总量。
将分块上的所有像素数据（颜色、深度、模板等）写入到系统显存中。
如果不是Frame Buffer的最后一个分块，继续执行下一个分块。
如果是Frame Buffer的最后一个分块，交互缓冲区，执行下一帧的Binning Pass。

解析阶段的运行示意图如下（注意Tile内的像素包含锯齿，下方大画面的是解析完MSAA带抗锯齿的像素）：

其中Binning Pass和Rendering Pass通常是分帧处理的，意味着Rendering Pass会落后Binning Pass一帧，以减少Stall，提升吞吐量，提升渲染效率。

基于TB(D)R GPU架构的优化和技术还有很多，后面会涉及到。

12.4.2 Hierarchical Tiling

Hierarchical Tiling译为层级分块，是Arm Midgard系列芯片首次使用的分块技术，顾名思义，它在分层的基础上实现分块。

在这种情况下，使用Hierarchical Tiling允许Midgard使用可变的分块大小，基于进一步分解分块的想法（沿着层次结构向下，见下图），直到分块的复杂性达到预期的大小（或者达到最小的分块复杂性）。这种技术使得Midgard只在必要的情况下使用小尺寸分块，并通过在复杂性较低的场景使用大尺寸分块来节省资源。

更具体地说，Arm通常将不同层级的分块（bin）设为以下的大小：

Hierarchy Level 0设为16x16像素；
Hierarchy Level 1设为32x32像素；
Hierarchy Level 2设为64x64像素；
Hierarchy Level 3设为128x128像素；
......

系统的目标是找出每个图元覆盖的分块，更新分块的结构信息。

如果是小面积图元（如上图灰色三角形），由于影响到的块比较少，用低层级的块，以节省读取带宽。

如果是大面积图元（如上图蓝色三角形），由于影响到的块比较多，用高层级的块，以节省写入带宽。

对于图元复杂的情况，GPU会采用启发性策略，以自动决定哪种是最佳的分布。

至于启发性策略的具体细节是怎样的，目前还没找到相关资料或文献，如果以后找到了（或有同学提供）再补充。

12.4.3 Early-Z

Early-Z是提前深度测试，提供了一种快速遮挡方法，剔除不需要的渲染Pass的对象（屏幕空间的位置不可见的像素）。Adreno GPU可以以4倍的绘制像素填充率剔除被遮挡的像素。

Early-Z通常发生在Rendering Pass阶段的光栅化之后像素着色之前。（下图）

Early-Z技术可以将很多无效的像素提前剔除，避免它们进入消耗严重的像素着色器。Early-Z剔除的最小单位不是1像素，而是像素块（pixel quad）。下面是其中的一个运行案例。

Early-Z运行示意图。左边是已经渲染的存储于深度缓冲的值，全部为1；中间是准备渲染的所有深度值为2的区域；右边利用Early-Z技术剔除了比深度缓冲较大的像素。

为了最大化发挥Early-Z技术，渲染引擎（如UE）会在渲染初期利用专门的Pass（如UE的PrePass），渲染出所有不透明物体的深度，发挥TBR架构的Early-Z技术。对支持TBDR架构的GPU，则无需此步。

但是，以下情况会导致Early-Z失效：

开启Alpha Test：由于Alpha Test需要在像素着色器后面的Alpha Test阶段比较，所以无法在像素着色器之前就决定该像素是否被剔除。
开启Alpha Blend：启用了Alpha混合的像素很多需要与frame buffer做混合，无法执行深度测试，也就无法利用Early-Z技术。
开启Tex Kill：即在shader代码中有像素摒弃指令（DX的discard，OpenGL的clip）。
关闭深度测试：Early-Z是建立在深度测试开启的条件下，如果关闭了深度测试，也就无法启用Early-Z技术。
开启Alpha To Coverage：Alpha To Coverage会开启多采样，会影响周边像素，而Early-Z阶段无法得知周边像素是否被裁剪，故无法提前剔除。
以及其它任何导致需要混合后面颜色的操作。

12.4.4 Transaction Elimination

Transaction Elimination (TE)是Mali GPU架构的一个关键带宽节约功能，可以显著节省芯片系统(SoC)上的能源。

当执行TE时，GPU将当前帧缓冲区与之前渲染的帧进行比较，只对修改过的特定部分进行部分更新，从而大大减少了每帧向外部内存传输的数据量。以Tile为粒度进行比较，使用循环冗余检查（Cyclic Redundancy Check，CRC）签名来确定Tile是否已被修改（具有相同CRC签名的Tile被认定是相同的，从而忽略该Tile的数据的传输）。

循环冗余检查（Cyclic Redundancy Check，CRC）是一种根据网络数据包、计算机文件、内存数据流等数据产生简短固定位数校验码的一种散列函数，主要用来检测或校验数据传输或者保存后可能出现的错误。这里被Mali GPU用来检测本帧的Tile数据和之前的Frame Buffer数据是否相同。

TE技术运行概要。当前帧会每个分块计算一个CRC键值，以便下一帧比较每个分块是否有数据变更，对于无变更的分块取消数据传输。图中右下角的绿色分块和上一帧匹配，不需要传输数据到Frame Buffer。对于互动游戏而言，平均可以减少20%以上的带宽。

执行TE技术对最终图像质量没有影响，可用于GPU支持的所有帧缓存格式的所有应用程序，而无需考虑帧缓存精度要求。另外，需要注意的是，TE发生在Tile写入数据到系统内存（Frame Buffer）期间（下图左下方）。

12.4.5 Forward Pixel Kill

Forward Pixel Kill (FPK)是Mali-T62X和T678及之后的芯片内置的一种减少OverDraw的技术。

在支持FPK的GPU中，像素着色的线程即便启动，也不会不可逆转地完成。正在进行的计算可以在任何时候终止，如果渲染管线发现后面的线程将把不透明的数据写入相同的像素位置。因为每个线程都需要有限的时间来完成，所以有一个时间窗口，可以利用它来杀死已经在管道中的像素。实际上，利用管道的深度来模拟对未来的预见效应。

支持FPK的GPU芯片内都存在FIFO（先进先出）缓冲区（介于Early Z测试和像素着色器之间，见下图），用来存储通过了Eearly-Z测试即将进入像素着色计算的Quad。

举个具体的例子说明FPK的运行机制，以下图为例：

上述图中新的Quad（位置是10，深度是0）通过了EarlyZ测试，即将进入FPK FIFO缓冲区，结果发现FIFO中已经存在位置为10位置为10，新进来的Quad便会替换掉FIFO队列的Quad（因为新的深度更靠近屏幕）。换而言之，FPK FIFO中的Quad会被新进的位置相同深度更小（近）的Quad替换掉。

关于FPK需要补充几点说明：

FPK剔除粒度是Quad（2x2像素块）。
FPK只对不透明物体有效。
FPK必须开启深度测试才能起作用。

12.4.6 Hidden Surface Removal

Hidden Surface Removal（HSR）译为隐藏表面消除，是PowerVR芯片的专用技术，通过HSR技术，可以实现零OverDraw，而与绘制顺序无关。

左下是传统GPU，不会对被遮挡的像素执行剔除，而右下展示了PowerVR利用HSR可以做到像素级剔除。

在包含Early-Z测试的架构中，应用程序可以通过从前面到后面提交draw调用来避免一些OverDraw。按照这个顺序提交可以建立深度缓冲区，因此远离相机的被遮挡的像素可以尽早被剔除。然而，这给应用程序带来了额外的负担，因为每次相机或场景中的对象移动时，绘制都必须进行排序。它也不能删除所有的OverDraw，因为逐绘制排序是非常粗糙的。例如，它不能解决由对象交叉引起的OverDraw。它还可以防止应用程序对绘制调用进行排序，以将图形API状态更改保持在最小值。

使用PowerVR的TBDR，无论物体的提交顺序如何（不排序），HSR将完全避免OverDraw。HSR阶段处于光栅化之后像素着色之前：

12.4.7 Low Resolution Z pass

Low Resolution Z pass简称LRZ，是Adreno A5X及以上的芯片在TBR执行Early-Z剔除时的优化技术。

在Binning Pass阶段，GPU会构造一个低分辨率的Z缓冲区，以LRZ-Tile（注意不是Bin Tile）为粒度来剔除被遮挡的区域，以提高Binning阶段的性能。在测试全分辨率Z缓冲区之前，这个LRZ还可以在Rendering Pass中被用来有效地剔除像素。

这个特性的优点是减少内存访问和带宽，减少渲染图元，不需要应用程序从前到后绘制，提高帧率。

但是，以下几种情况会使LRZ技术失效：

在像素着色器中写入深度值。
使用了图形API（Vulkan）的次级命令缓冲区（secondary command buffer）。
需要IMR直接渲染的任何条件。

12.4.8 FlexRender

FlexRender是Adreno芯片的独有技术，是混合了TBR（Binning）和IMR（Direct Rendering）两种模式的渲染技术，通过在两种模式之间动态切换来最大化性能。

FlexRender运行示意图。Direct Rendering模式下，GPU绕过GMEM直接和系统内存交互；Binning模式下，GPU通过GMEM和系统内存交互。

驱动程序和GPU分析给定渲染目标的渲染参数并自动选择模式，比如渲染目标尺寸很小，会主动切换成IMR模式，以减少渲染消耗（TBR存在基础消耗），如果是执行遮挡剔除，也会切换成IMR模式（哪怕之前处于TBR模式）。

通常情况下，IMR模式要比TBR模式消耗的能量多：

GFXBench Manhattan 3.0监控下的Snapdragon SoC在Direct和Binning模式的能耗对比，后者会省20%左右。

12.4.9 Universal Bandwidth Compression

Universal Bandwidth Compression (UBWC) 是Adreno A5x及之后的芯片加入的通用带宽压缩技术，是一种独特的预测带压缩方案，通过最小化数据带宽，可提高系统内存的有效吞吐量，实现显著的节能。

除了GPU芯片，UBWC技术在应用于Snapdraggon CPU的多个组件上，如显示、视频、相机等。压缩支持YUV和RGB格式，减少内存瓶颈。

UBWC虽然应用于高通的芯片上，但Google Developer Contributes Universal Bandwidth Compression To Freedreno Driver显示该技术实际上是由Freedreno开源驱动器提供。UBWC具体用了何种压缩算法，此文并未提及。

12.4.10 Arm Frame Buffer Compression

Arm Frame Buffer Compression (AFBC)专用于Arm设计的GPU中，解决了在移动设备的热限制下创建越来越复杂的设计的难度。最重要的应用是视频后处理，在许多使用情况下，GPU需要读取视频并在2D或3D场景中使用视频流作为纹理时应用特效。在这种情况下，AFBC可以降低整个系统级带宽和传输空间协调图像数据的电力成本高达50%。

AFBC运行示意图。

作为一种无损的压缩协议和格式，AFBC最小化在SoC的IP块之间的数据传输量。具体低说，AFBC有如下特点：

无损压缩格式。压缩格式保留原始图像精度，压缩率和其它无损的压缩标准相媲美。
被Mali GPU完全支持。
减少能量消耗。主要受益于带宽的减少。
SoC设计的区域效率高。AFBC可以在设计中以零面积成本添加。
有界的最坏情况压缩比。最坏情况（随机访问）的效率下降成4x4级别。
支持YUV和RGB格式。YUV压缩比一般为50%。

12.4.11 Index-Driven Vertex Shading

Index-Driven Vertex Shading（IDVS）是Mali GPU内的一种顶点处理优化技术，发生在每个Render Pass的顶点处理阶段。

IDVS的主要特点在于将传统的顶点着色器拆分为两个阶段：

第一阶段是位置着色（Position Shading），发生在各类顶点Culling之前，此阶段只转换顶点位置，而不执行顶点的其它操作。
第二阶段是可变着色（Varying Shading），发生在各类顶点Culling之后，只处理通过各类Culling的顶点，执行顶点的位置转换之外的其它操作。

IDVS将顶点着色器拆分为位置着色（Position Shading）和可变着色（Varying Shading）两个阶段。

IDVS技术的优势在于：

Varying Shading大多数情况消耗的性能要比Position Shading大，通过各类顶点Culling阶段剔除掉无效的顶点，从而避免进入消耗大的Varying Shading。
通过匹配IDVS技术的顶点属性布局，可以减少数据读取量，提升Cache命中率，提升性能，降低功耗。匹配IDVS技术的顶点属性布局如下：
- 将顶点的位置单独成一个数据流，数据流布局如下：
```
xyz | xyz | xyz | ...
```
- 将顶点除位置之外的属性按照SoA（Structure of Array）布局，例如：
```
color,uv,normal | color,uv,normal | color,uv,normal | ...
```

IDVS顶点数据流优化及交互示意图。

12.4.12 Pixel Local Storage

Pixel Local Storage（PLS）是OpenGL ES的一种数据存取方式，用PLS声明的数据将保存在GPU的Tile buffer上（下图）。

PLS启用时，渲染管线可以高效地执行颜色操作、混合等。GLSL声明PLS数据关键字有三种，说明如下表：

关键字	作用
__pixel_localEXT	可读可写数据。
__pixel_local_inEXT	只读数据。
__pixel_local_outEXT	只写数据。

PLS的应用以延迟渲染为例，则伪代码如下所示：

// ------GBuffer生成------
__pixel_local_outEXT FragData // 只写数据
{
    layout(rgba8) highp vec4 Color;
    layout(rg16f) highp vec2 NormalXY;
    layout(rg16f) highp vec2 NormalZ_LightingB;
    layout(rg16f) highp vec2 LightingRG;
}gbuf;

void main()
{
    gbuf.Color = CalcDiffuseColor();
    vec3 Normal = CalcNormal();
    gbuf.NormalXY = Normal.xy;
    gbuf.NormalZ_LightingB.x = Normal.Z;
}

// ------光照累积------
__pixel_localEXT FragData // 可读写数据
{
    layout(rgba8) highp vec4 Color;
    layout(rg16f) highp vec2 NormalXY;
    layout(rg16f) highp vec2 NormalZ_LightingB;
    layout(rg16f) highp vec2 LightingRG;
}gbuf;

void main()
{
    vec3 Lighting = CalcLighting(gbuf.NormalXY, gbuf.NormalZ_LightingB.x);
    gbuf.LightingRG += Lighting.xy;
    gbuf.NormalZ_LightingB.y += Lighting.z;
}

// ------最终着色------
__pixel_local_inEXT FragData // 只读数据
{
    layout(rgba8) highp vec4 Color;
    layout(rg16f) highp vec2 NormalXY;
    layout(rg16f) highp vec2 NormalZ_LightingB;
    layout(rg16f) highp vec2 LightingRG;
}gbuf;

out highp vec4 FragColor;

void main()
{
    FragColor = resolve(gbuf.Color, gbuf.LightingRG, gbuf.NormalZ_LightingB.y);
}

利用PLS执行延迟渲染的运行示意图如下（注意右上方小方块的红色代表渲染几何数据阶段，绿色代表渲染光照阶段）：

除了OpenGL ES，Metal、Vulkan、D3D等图形API也提供了相应的接口、关键字或标记支持GPU Tile上的数据操作。

以上代码显示，延迟着色所需的GBuffer数据一直处于PLS之中，最好解析后返回最终颜色，而不需要将GBuffer写回系统内存（下图）。

PLS能够提升22%左右的性能：

UE4还利用PLS实现了高效的粒子软混合：

左：粒子一般混合模式；右：粒子软混合模式。

Vulkan也有类似的机制，被称为Subpass，见后面章节。

12.4.13 Subpass

Subpass（子通道）是顺应TB(D)R硬件架构的产物，适用于Vulkan、DX12、Metal等现代图形API，底层原理类似于Pixel Local Storage。

使用Subpass需满足以下几点特殊的要求：

所有subpass必须在同一个Render Pass中。
不需要采样周边邻域像素。（否则会跨Tile访问数据，无法保持所有数据访问在同一个Tile内）
GPU支持TB(D)R的硬件架构。
Vulkan、DX12、Metal等现代图形API。

每个RenderPass和Subpass都可以为每个Attachment指定loadOp和storeOp，以便精确控制它们的存取行为：

subpass的loadOp标记有3种：

LOAD_OP_LOAD：从全局内存加载Attachment到Tile。
LOAD_OP_CLEAR：清理Tile缓冲区的数据。
LOAD_OP_DONT_CARE：不对Tile缓冲区的数据做任何操作，通常用于Tile内的数据会被全部重新，效率高于LOAD_OP_CLEAR。

以上3个标记执行的效率：LOAD_OP_DONT_CARE > LOAD_OP_CLEAR > LOAD_OP_LOAD。Vulkan使用示例代码：

VkAttachmentDescription colorAttachment = {};
colorAttachment.format = VK_FORMAT_B8G8R8A8_SRGB;
colorAttachment.samples = VK_SAMPLE_COUNT_1_BIT;
// 标明loadOp为DONT_CARE.
colorAttachment.loadOp = VK_ATTACHMENT_LOAD_OP_DONT_CARE;

subpass的storeOp标记有2种：

STORE_OP_STORE：将Tile内的数据存储到全局内存。
STORE_OP_DONT_CARE：不对Tile缓冲区的数据做任何存储操作。

以上两个标记的执行效率：STORE_OP_DONT_CARE > STORE_OP_STORE。Vulkan使用示例代码：

VkAttachmentDescription colorAttachment = {};
colorAttachment.format = VK_FORMAT_B8G8R8A8_SRGB;
colorAttachment.samples = VK_SAMPLE_COUNT_1_BIT;
// 标明loadOp为DONT_CARE.
colorAttachment.loadOp = VK_ATTACHMENT_LOAD_OP_DONT_CARE;
// 标明storeOp为DONT_CARE.
colorAttachment.storeOp = VK_ATTACHMENT_STORE_OP_DONT_CARE;

不像OpenGL ES在Shader中有显式的关键字（__pixel_localEXT、__pixel_local_inEXT、__pixel_local_outEXT）来声明Tile内变量，Vulkan为了让Attachment存储到Tile内，必须使用标记TRANSIENT_ATTACHMENT和LAZILY_ALLOCATED：

VkImageCreateInfo imageInfo{VK_STRUCTURE_TYPE_IMAGE_CREATE_INFO};
imageInfo.flags		= flags;
imageInfo.imageType	= type;
imageInfo.format	= format;
imageInfo.extent	= extent;
imageInfo.samples	= sampleCount;
// Image使用TRANSIENT_ATTACHMENT的标记.
imageInfo.usage		= VK_IMAGE_USAGE_TRANSIENT_ATTACHMENT_BIT;

VmaAllocation memory;
VmaAllocationCreateInfo memoryInfo{};
memoryInfo.usage		  = memoryUsage;
// Image所在的内存使用LAZILY_ALLOCATED的标记.
memoryInfo.preferredFlags = VK_MEMORY_PROPERTY_LAZILY_ALLOCATED_BIT;

// 创建Image.
auto result = vmaCreateImage(device.get_memory_allocator(), &imageInfo, memoryInfo, &handle, &memory, nullptr);

使用subpass的loadOp和storeOp进行优化之后，Vulkan的官方测试示例显示可以减少36%的全局内存读取、62%的全局内存写入、7%的片元执行周期：

另外，使用正确的storeOp和loadOp可以高效地在Tile内解析MSAA数据，具体说明如下：

带MSAA的Image（或attachment）必须是瞬态的（transient），通过以下标记可在Render Pass结束时获得解析MSAA后的数据：
- loadOp = LOAD_OP_CLEAR；
- storeOp = STORE_OP_DONT_CARE；
- 使用LAZILY_ALLOCATED的内存标记；
- 在subpass使用pResolveAttachments标记。
对于深度模板的Attachment，也可以获得类似的效果：
- 使用VK_KHR_depth_stencil_resolve标记；
- Vulkan 1.2及以上的API才支持。

通过以上方式可以高效地在Tile内解析掉MSAA数据，而不会传输MSAA数据到全局内存。此外，需要避免使用vkCmdResolveImage接口解析MSAA：

上：使用vkCmdResolveImage解析MSAA的错误示范；下：使用Tile内解析MSAA的正确示范。

使用subpass的loadOp和storeOp对MSAA解析进行优化之后，Vulkan的官方测试示例显示可以减少261%的全局内存读取、440%的全局内存写入！！

优化效果可见一斑！！还等什么，尽管拿起subpass的有利武器对应用程序进行优化吧！！

更多说明参见Vulkan官方组织KhronosGroup的github：Appropriate use of render pass attachments。

有关UE对Subpass的封装可参见：10.4.4.2 Subpass渲染。

12.4.14 Adaptive Scalable Texture Compression

Adaptive Scalable Texture Compression (ASTC)是Arm和AMD共同研发的一种纹理压缩格式，不同于ETC和ETC2的固定块尺寸（4x4），ASTC支持可变块大小的压缩，从而获得灵活的更大压缩率的纹理数据，降低GPU的带宽和能耗。

ASTC虽然尚未成为OpenGL的标准格式，只是以扩展的形式存在，但目前已经广泛地被主流GPU支持，可谓不是标准的的标准扩展。但在Vulkan中，ASTC已经是标准的特性了。具体地说，ASTC支持以下特性：

格式灵活。ASTC可以压缩1到4个通道之间的数据，包括一个非相关通道，如RGB+A(相关RGB，非相关alpha)。并且块大小可变，如4x4、5x4、6x5、10X5等。
Adreno A5X及以上的GPU芯片支持ASTC以下不同块大小的格式（包含二维和三维）：
- ASTC_4X4
  
  ASTC_5X4
- ASTC_5X5
- ASTC_6X5
- ASTC_6X6
- ASTC_8X5
- ASTC_8X6
- ASTC_8X8
- ASTC_10X5
- ASTC_10X6
- ASTC_10X8
- ASTC_10X10
- ASTC_12X10
- ASTC_12X12
- ASTC_3X3X3
- ASTC_4X3X3
- ASTC_4X4X3
- ASTC_4X4X4
- ASTC_5X4X4
- ASTC_5X5X4
- ASTC_5X5X5
- ASTC_6X5X5
- ASTC_6X6X5
- ASTC_6X6X6
灵活的比特率。ASTC在压缩图像时提供了广泛的比特率选择，在0.89位和8位每texel (bpt)之间。比特率的选择与颜色格式的选择无关。而传统的ETC等格式只能是整数的比特率。
高级格式支持。ASTC可以压缩图像在低动态范围(LDR)、LDR sRGB、高动态范围(HDR)颜色空间，还可以压缩3D体积纹理。
改善图像质量。尽管具有高度的格式灵活性，但在同等比特率下，ASTC在图像质量上的表现优于几乎所有传统的纹理压缩格式（ETC2、PVRCT和BC等）。
格式矩阵全覆盖。在ASTC尚未出现之前，传统的纹理压缩格式支持的颜色格式和比特率的组合相对较少，如下图所示：

以上格式还受图形API或操作系统限制，因此任何单一平台的压缩选择都非常有限。ASTC的出现解决了上述问题，几乎实现了所需格式矩阵的完整覆盖，为内容创建者提供了广泛的比特率选择。下图显示了可用的格式和比特率：

ASCT是如何达成上述目标的呢？答案就在于ASTC用了一种特殊的压缩算法和数据结构。ASTC的算法技术要点和阐述如下：

块压缩

实时图形的压缩格式需要能够快速有效地将随机样本转换为纹理，因此对压缩技术必须做到以下几点:
- 仅给定一个采样坐标，计算内存中数据的地址。
- 能够在不解压太多周围数据的前提下解压随机采样。
所有当代实时压缩格式（包括ASTC）使用的标准解决方案，是将图像分割成固定大小的像素块，然后每个块被压缩成固定数量的输出位。这保证Shader以任意顺序快速访问texels，并具有良好的解压成本。

ASTC中的2D Block footprints范围从4x4 texels到12x12 texels，它们都被压缩成128位输出块。通过将128位除以占用空间中的像素数，便能得到格式比特率，这些比特率范围从8 bpt($128 / (4\cdot4)$)到0.89 bpt($128 / (12\cdot12)$)。下面是不同比特率的画质对比图：
颜色端点（Color endpoint）

块的颜色数据被编码为两个颜色端点之间的梯度。每个texel沿着梯度选择一个位置，然后在解压期间插值。ASTC支持16色端点编码方案，称为端点模式（ endpoint mode）。端点模式的选项允许改变以下内容：
- 颜色通道的数量。例如：亮度、亮度+alpha、rgb或rgba。
- 编码方法。例如：直接、基数+偏移、基数+比例或量化级别。
- 数据范围。例如：低动态范围或高动态范围。
允许逐块选择不同的端点模式和端点颜色BISE量化级别。
颜色分区（Color partition）

块内的颜色通常是复杂的，单色渐变通常不能准确地捕捉块内的所有颜色。例如，躺在绿色草地上的红球，需要进行两种颜色的划分，如下图所示：

ASTC允许单个块最多引用四个颜色梯度，称为分区。为了解压，每个texel被分配到一个单独的分区。

直接存储每个texel的分区分配将需要大量的解压缩硬件来存储所有块大小。相反，ASTC使用分区索引作为seed值，以算法生成一系列模式。压缩过程为每个块选择最佳匹配的模式，然后块只需要存储最佳匹配模式的索引。下图显示了8 × 8块大小的2个(图像顶部)、3个(图像中间)和4个(图像底部)分区生成的模式：

可以在每个块的基础上选择分区的数量和分区索引，并且可以在每个分区上选择不同的颜色端点模式。
颜色编码

ASTC使用渐变来指定每个texel的颜色值。每个压缩块存储渐变的端点颜色，以及每个像素的插值权重。在解压过程中，每个像素的颜色值是根据每个像素的权重在两个端点颜色之间插值生成的。下图显示了各种texel权重的插值：

方块通常包含复杂的颜色分布，例如一个红色的球放在绿色的草地上。在这些情况下，单一的颜色梯度不能准确地代表所有不同的texel颜色值。 ASTC允许一个块定义多达四个不同的颜色梯度，称为分区（partition），并可以将每个texel分配到一个单独的分区。下图显示了分区索引是如何为每个texel指定颜色渐变的（两个分区，一个用于红球像素，一个用于绿草像素）:
存储字符表（Storing alphabet）

尽管每个像素的颜色和权重值理论上是浮点值，但可以直接存储实际值的位太少了。为了减小存储大小，必须在压缩期间对这些值进行量化。例如，如果对0.0到1.0范围内的每个texel有一个浮点权重，可以选择量化到5个值:0.0、0.25、0.5、0.75和1.0，再使用整数0-4来表示存储中的这五个量化值。

一般情况下，如果选择量化N层，需要能够有效地存储包含N个符号的字符表中的字符。一个N个符号表包含每个字符的log2(N)位信息。如果有一个由5个可能的符号组成的字符表，那么每个字符包含大约2.32位的信息，但是简单的二进制存储需要四舍五入到3位，这浪费了22.3%的存储容量。下图表显示了使用简单的二进制编码存储任意N个符号字符表所浪费的位空间百分比:

上述图表显示，对于大多数字符大小，使用整数位每个字符浪费大量的存储容量。对于压缩格式来说，效率是至关重要的，因此这是ASTC需要解决的问题。

一种解决方案是将量化级别四舍五入到2的下一次方，这样就不用浪费额外的比特了。然而，这种解决方案迫使编码器消耗了本可以在其它地方使用获得更大收益的比特位，因此此方案降低了图像质量，并非最优解决方案。
五元和三元数（Quint and trit）

一个更有效的解决方案是将三个五元字符组合在一起，而不是将一个五元字符组合成三个位。五个字母中的三个字符有$5^3=125$个组合，包含6.97位信息。我们可以以7位的形式存储这三个quint字符，而存储浪费仅为0.5%。

我们也可以用类似的方法构造一个三符号的字母表，称为三个一组，并将五个一组的三个一组字符组合起来。每个字符组有$3^5=243$个组合，包含7.92位信息。我们可以以8位的形式存储这5个trit字符，而存储浪费仅为1%。
有界整数序列编码（Bounded Integer Sequence Encoding）

ASTC使用的有界整数序列编码(Bounded Integer Sequence Encoding，BISE)允许使用最多256个符号的任意字符存储字符序列。每一个字符大小都是用最节省空间的位、元和五元进行编码的。
- 包含最多$2^n-1$个符号的字母表可以使用每个字符n位进行编码。
- 包含最多$3\cdot(2^n - 1)$个符号的字母表可以使用每个字符用n位(m)和一个trit (t)进行编码，并使用方程$(t \cdot 2^n) + m$重建。
- 包含最多$5\cdot(2^n - 1)$个符号的字母表可以使用每个字符用n位(m)和一个quint (q)进行编码，并使用方程$(q \cdot 2^n) + m$重建。
当序列中的字符数不是3或5的倍数时，必须避免在序列末尾浪费存储空间，因此在编码上添加了另一个约束。如果序列中要编码的最后几个值为零，则已编码位串的最后几个位也必须为零。理想情况下，非零位的数目很容易计算，并且不依赖于先前编码值的大小。这在压缩期间很难妥当处理，但也是可能解决的。意味着不需要在位序列结束后存储任何填充，因为我们可以安全地假设它们是零位。

有了这个约束，通过对bit、trit和quint的智能打包，BISE使用固定位数对N个符号字母表中的S个字符串进行编码:
- S最大值为$2^N - 1$ ，使用 $N \cdot S$位。
- S最大值为$3\cdot2^N - 1$ ，使用 $N\cdot S + \text{ceil}(8S / 5)$位。
- S最大值为$5\cdot2^N - 1$ ，使用 $N\cdot S + \text{ceil}(7S / 3)$位。
压缩器选择为所存储的字母大小产生最小存储空间的选项。一些使用二进制，一些使用bit和trit，还有一些使用bit和quint。下图显示了BISE存储相对于二进制存储的效率增益：

此外，在压缩过程中，会为每个块选择最佳编码，在计算texel权重值时，除了上述的BISE，还有双平面权重（Dual-plane weights）算法。

ASTC免费自由使用，容易集成，被众多主流系统和硬件支持。支持ASTC需要以下OpenGL扩展：

GL_AMD_compressed_ATC_texture
GL_ANDROID_extension_pack_es31a

相比传统的纹理压缩格式（ETC、BC、PVRTC等），使用ASTC的压缩效果非常明显，画质更贴近原图，压缩率更高：

左：原始法线贴图；中：压缩成ETC的效果；右：压缩成ASTC的效果。

由此带来的直观收益就是占用更少的内存、带宽，每帧大约能减少24.4%的带宽：

关于ASTC的更多详情可参看Adaptive Scalable Texture Compression。

12.4.15 big.LITTLE Core

移动端CPU（注意不是GPU，如Qualcomm Keyo CPU）存在big.LITTLE的组合架构，最早由Arm提出。此架构同时存在big core和little core，big core为了高性能而优化，little core为了能量消耗而优化。

Qualcomm Keyo CPU的big.LITTLE架构。左边4个是big core，执行性能高但耗电量较大，右边4个是little core，执行性能较低但较省电。

big.LITTLE架构的特点如下：

通过将两个非常不同的处理器组合在一个SoC中，以应对智能设备在性能方面需求的变化。
big.LITTLE软件自动处理任务分配到适当的CPU核。操作系统直接感知系统中的高性能和高效率核心，并可以根据性能需求将每个任务动态分配到合适的核心。

理解以及如何使用这种架构的特性对于优化性能和功率效率至关重要，优化得好，将获得更长的游戏时间和游戏的散热。

为了提升big.LITTLE的效率，尽量优先使用little core。假设帧预期时间为16ms (60FPS)，开发者可以使用工具（如Snapdragon Profiler）来识别任务，将其移至LITTLE core。例如，一款带有布料模拟的游戏，在big core上执行需要3毫秒，而在little core执行可能需要10毫秒。只要这个执行时间是可以接受的（本例的帧预算是16ms），应该被移到little core中，减少对big core的利用，提高电力效率。

移动端SoC制造厂商（如Qualcomm、Arm）通常提供了相关SDK和API给开发者指定任务在哪种类型的CPU核上运行，具体可参看：Controlling Task Execution。

12.4.16 其它技术要点

除了以上小节涉及的技术要点，实际上移动端芯片或图形API还存在很多其它技术，比如SIMD、SIMT、Unified shader architecture（统一着色器架构，见下图）、Scalar architecture（标量着色器架构）、Tripipe（下下图）等等。更多技术细节可以阅读笔者的另一篇关于GPU的文章：深入GPU硬件架构及运行机制。

左：分离式着色器处理单元，右：同意着色器处理单元。可见后者的处理器基本处于满负荷运行，从而减少等待和空载，提升整体运算能力。

Mali GPU中的Tripipe结构示意图，包含3个运算单元、1个存取单元和1个纹理单元，拥有128bit带宽，2倍FP64、4倍FP32、8倍FP16的操运算效率。

另外，OpenGL ES还有不少扩展可以提升性能，比如针对纹理子区域读写操作：

KHR_partial_update
EXT_buffer_age

此扩展允许调用者利用Backbuffer的时间指定多个方框绘制帧内容。此技术类似于TE，但不会写数据到Tile缓冲区。

12.5 移动GPU架构和机制

本章将阐述移动端GPU的硬件架构和运行机制。

12.5.1 移动GPU概述

移动端GPU由于便携性，需要考虑PPA三个指标，因此设计一款高性能的GPU异常困难，具有高度的挑战性。目前主要有Qualcomm、Arm、Imagination Tech等GPU制作厂商，他们的代表作分别是Adreno、Mali、PowerVR。移动端的GPU通常集成在SoC之中，和CPU、内存等器件形成有机的硬件架构体系。

Snapdragon框架图。包含了了CPU、Adreno GPU、内存等元件，通过Bus、Network等进行数据交互。

随着时间推移，移动端硬件随之发展，越来越多新的图形API和渲染特性也被迁移到移动端，具体表现在：

主流GPU支持DX12、Vulkan1.2、OpenGL ES 3.2等图形API，支持VRS、Mesh Shading、Ray Tracing、WaveMath等新的渲染特性。
GPU吞吐量和计算能力大幅提升，包含ALU、Texture、Memory等方面：

Qualcomm Adreno 640 GPU的性能一览，右侧是Xbox One的性能数据。
内存带宽增加，能耗比提升。
电量节省特性大量涌现。
- Render Target Compression, FP16 math ops, ASTC, Vulkan Subpasses。
- UBWC、AFBC、IDVS、PLS等。
移动端Soc被广泛地应用于VR应用，并带来了诸多专用优化技术。
Compute Shader能力的完善和提升，对OpenCL库的支持趋于完善。
并行数量越来越多，吞吐量提升。

CPU和GPU运行示意图，可知GPU缓存小但拥有数量众多的线程。

移动端GPU架构内的相关概念和名词解析如下：

概念	全称	解析
AMBA	Advanced Microcontroller Bus Architecture	高级微控制器总线架构
AXI	AMBA Advanced eXtensible Interface	AMBA高级可扩展接口
APB	AMBA Advanced Peripherial Bus	AMBA高级外围总线
ACE	AMBA AXI Coherency Extensions	AMBA AXI一致性扩展
GPU	Graphics Processing Unit	图形处理单元
VPU	Video Processing Unit	视频处理单元
DPU	Display Processing Unit	显示处理单元
ISA	Instruction Set Architecture	指令集架构
SIMD	Single Instruction Multiple Data	单指令多数据
ISP	Image Synthesis Processor	合成图像处理器
TSP	Texture and Shading Processor	纹理和着色处理器

12.5.2 移动GPU运行机制

由于每个GPU厂商、每个系列、每代产品的运行机制都可能存在不同，本节就以Mali GPU为例，阐述移动端的GPU运行机制。首先说明一下Arm Mali T880 GPU硬件架构的参数，如下：

16个Shader Core（SC）。
Tile尺寸为16x16（内部4x4~32x32）。
- 可存储深度模板缓冲，128位像素数据。
- 每像素拥有16字节，原始位访问（Raw bit access）。
支持GLES3.2，Vulkan 1.0，CL 1.2，DX 11.2。
4x、8x、16x的MSAA。

Arm Mali T880 GPU硬件架构示意图及其功能描述。

对于Mali GPU，驱动程序通过Job Manager（作业管理器）提交绘制任务，由Job Manager向GPU的绘制硬件创建并提交任务，它们通过内部连接元件交互。

应用程序、驱动程序、GPU、DPU等各个层级的交互简化后的示意图如下：

应用程序、驱动程序、GPU等交互示意图。其中eglSwapBuffers表示帧结束，App会属性绘制命令给驱动程序，驱动程序会编排任务给GPU，GPU绘制完成之后提交结果给DPU。注意它们各个层级之间存在着延时。

首先考察应用层和驱动层的交互。应用程序在调用图形API（如OpenGL ES）时，驱动程序会创建对应的资源架构图：

GPU内部存在以下几种Job（作业）类型：

作业名称	缩写	描述
Vertex Job	V	执行一组顶点的顶点着色器。
Tiler Job	T	Tiling Unit（分块单元，固定功能）分拆转换后的图元到覆盖的分块。
Fragment Job	F	运行在所有Tile的单一渲染目标的工作。
Job Chain	-	作业链。

以下是GPU作业链的其中一种情形：

作业链示意图。其中作业之间存在依赖关系（箭头所示），只有前序任务完成了，才行执行下一个作业。

CPU、GPU的交互示意图如下，其中CPU通过APB提交任务给GPU，GPU内的Job Manager通过AXI存取共享内存，而CPU也可以通过AXI存取共享内存。

GPU内的Job Manager创建和分配任务示意图如下：

Job Mananger运行示意图。图中分配了3个顶点作业、1个分块作业和2个着色作业。其中分块作业依赖于顶点作业。

对于Shader Core而言，Mali的结构是Tripipe，是统一着色器架构，可以执行VS或PS：

更进一步地，顶点作业运行示意图如下。顶点线程不会写入tile缓冲区，但会直接访问主内存，顶点任务包含了4n个顶点。

片元作业示意图如下：

Fragment Work分为Front-End、Tripipe、Back-End三个阶段。成功经过光栅化、Early-Z、FPK的像素会由Fragment Thread Creator创建线程（以Quad为单位，即2x2个线程），进入Tripipe着色，然后进入Late-Z、混合，最后写入Tile内存。

但是，不是所有移动端GPU的运行机制都跟Mali的一模一样，比如PowerVR的就会诸多不同点：

PowerVR Series 7XT架构示意图。

PowerVR Series 7XT统一着色器簇组架构图。

更多PowerVR的介绍可参见：

PowerVR Series5 Architecture Guide for Developers
PowerVR Graphics - Latest Developments and Future Plans

12.5.3 并行、卡顿和延时

随着摩尔定律的放缓，现代移动端的SoC朝着多核高并行的方向发展，应用程序能否利用多核性能提升并行效率，很大程序上决定了它的品质和用户体验。

和并行效率相反，卡顿和延时是实时应用（如游戏）的天敌。卡顿意味着帧率低，应用程序运行不够流畅；延时则意味着操作不能及时响应，降低产品的用户体验，甚至会导致用户严重流失。

无论是在PC端还是移动端，渲染管线需要处理的场景越来越复杂，加上多线程等特性，因此或多或少存在着等待、卡顿（Stall）等现象，由此导致了延时（Latency）。这种现象在TB(D)R盛行的移动端渲染管线中尤为明显。

造成卡顿和延时的原因有客观和主观。客观的原因指多线程的协同等待、同步，驱动程序的优化，GPU内部执行机制的良性优化等。而主观方面是指那些没有使用符合特定渲染机制的接口、标记、状态或资源，这类是可以避免和优化的。

UE存在游戏线程、渲染线程、RHI线程，后面的线程通常会比前面的线程延时一些，它们之间还存在同步和等待，防止前面的线程领先太多时间。

应用程序、驱动程序、GPU、显示器之间的延时示意图，下层会比上层落后一段时间。

OpenGL的glFinish和glFlush执行示意图。其中glFlush调用之后，不一定会立即刷新渲染指令到GPU，只有当驱动器的渲染命令缓冲区满了才会，因此也可能导致延时。

移动端GPU的TB(D)R较普通的做法是将Binning Pass和Rendering Pass放在不同的帧处理，以提升并行效率，但也会导致延时：

TBR架构中的Binning、Rendering错帧处理示意图。

以上是完美错帧处理的情况，如果有以下情形之一，则会打乱TBR的执行节奏，导致更严重的Stall和延时：

Binning依赖上一帧的数据或资源。

n+1帧的binning需要依赖n帧的Rendering渲染结果，所以不能和n帧的Rendering Pass并行处理，只能延时到下一帧。

这种情况可以通过延时使用解决，比如N帧的binning使用N-1帧的Rendering结果。下图是实时环境立体图的优化案例：
在提交之后、渲染使用之前，要修改数据。例如：
- 像素着色器计算并写入数据到一个帧缓冲对象，使用结果生成位移。
- 从CPU写入纹理，使用它进行渲染，然后再次更新纹理，然后渲染下一帧；像素着色器在纹理更新完成之前不会执行。

Vulkan等现代图形API存在Subpass机制，Subpass可以并行处理（Overlap），也可以指定数据依赖：

上：subpass的overlap机制i；下：subpass内部和之间的数据依赖。

使用Vulkan、Metal、DX12等现代图形API可以精确指定渲染管线屏障（Barrier）的等待阶段，例如下图使用了默认的PipelineBarrier，会导致Vertex、Fragment处理存在较多的空闲或等待，浪费GPU时间周期：

通过修改屏障需要等待的源阶段和目标阶段，可以缓解这类Stall，提升着色器单元的利用率：

Pipeline Barrier的具体优化示例如下：

利用Vulkan的Pipeline Barrier优化各个Pass之间的等待阶段，可以减少Stall和延时。图中从28ms下降到22ms。

PowerVR的TBDR架构，会在本帧所有图元处理完Binning数据，才开始渲染阶段，这也许会导致更严重的延时。

除了以上所述的情况会导致延时，还有GPU内部的一些执行情况也会，比如GPU指令组之间存在依赖关系：

左：GPU指令组正常执行，没有等待的情况；右：GPU指令组被加入了气泡（bubble），导致了延时。

气泡（bubble）的产生是为了解决GPU指令组之间的数据依赖：

左：下组指令依赖上组数据的写入，如果不处理就会获得旧的数据；右：在下组指令插入气泡，延迟一个时钟周期以保证获取最新的数据。

Shader中的if和for等动态分支循环语句会降低GPU计算单元利用率，拉长它们运行指令的时间：

访问内存的指令也会使GPU计算单元产生Stall，延长计算时间：

不同于CPU的低延时低吞吐率，GPU天生为了高并行和高吞吐率而设计，但与此同时缓存容量小，Cache命中率低，延时较高：

因此，如果GPU数据结构设计得不好，会极大降低Cache命中率，从而增加计算单元的卡顿和延时。GPU的线程编排器（Thread Schdule）通常会考虑数据关联性，保持同个线程组的线程在同一个缓存行：

尺寸为16的Wave运行示意图。其中虚线表示线程组之间不能跨界存取数据，以提高线程组内部访问数据的缓存命中率。

除上述情况之外，如果系统或应用程序使用了双缓冲、三缓冲、垂直同步等机制，也会引入一定的延时。

三缓冲执行机制示意图。

Android系统渲染模块使用了多层级封装和三缓冲机制，使得画面总是延迟3帧：

相反，善用Async Compute、Copy Engine、Graphic Pipeline等部位的并行机制，利用RDG的自动处理资源分配和依赖，利用子资源（subresource）和别名资源（aliasied resource）的特性，合并屏障等操作，可以减少Pass之间、Pass内部的等待和延时，提升并行效率。

Async Compute、Copy Engine、Graphic Pipeline的并行运行案例。

别名资源运行机制示意图，其中资源A和D分别在不同时间段占用了同一块内存区域。在使用RDG时，别名资源可以节省超过50%的已使用资源分配空间，即便它们会给渲染系统添加额外的资源管理复杂性。

总之，从CPU的App层的逻辑更新、渲染指令生成、图形API的调用和提交，横跨驱动层、系统层、GPU内部，到最终的显示器呈现，都可能存在各种各样的依赖、等待、卡顿和延时等问题。这就要求我们统揽全局，甄别整条渲染管线的瓶颈，对症下药，才能使我们的程序高效、流畅、即时地运行。

UE4官方文档针对延时给了一些建议和优化措施，详见Low Latency Frame Syncing。

未完待续

团队招员

博主所在的团队正在用UE4开发一种全新的沉浸式体验的产品，急需各路贤士加入，共谋宏图大业。目前急招以下职位：

UE逻辑开发。
UE引擎程序。
UE图形渲染。
TA（技术向、美术向）。

要求：

扎实的技术基础。
高度的技术热情。
良好的自驱力。
良好的沟通协作能力。
有UE使用经验或移动端开发经验更佳。

有意向或想了解更多的请添加博主微信：81079389（注明博客园求职），或者发简历到博主邮箱：81079389#qq.com（#换成@）。

静待各路英雄豪杰相会。

特别说明

感谢所有参考文献的作者，部分图片来自参考文献和网络，侵删。
本系列文章为笔者原创，只发表在博客园上，欢迎分享本文链接，但未经同意，不允许转载！
系列文章，未完待续，完整目录请戳内容纲目。
系列文章，未完待续，完整目录请戳内容纲目。
系列文章，未完待续，完整目录请戳内容纲目。

参考文献

Unreal Engine Source
Rendering and Graphics
Materials
Graphics Programming
Mobile Rendering
Qualcomm® Adreno™ GPU
PowerVR Developer Documentation
Arm Mali GPU Best Practices Developer Guide
Arm Mali GPU Graphics and Gaming Development
Moving Mobile Graphics
GDC Vault
Siggraph Conference Content
GameDev Best Practices
Accelerating Mobile XR
Frequently Asked Questions
Google Developer Contributes Universal Bandwidth Compression To Freedreno Driver
Using pipeline barriers efficiently
Optimized pixel-projected reflections for planar reflectors
UE4画面表现移动端较PC端差异及最小化差异的分享
Deferred Shading in Unity URP
移动游戏性能优化通用技法
深入GPU硬件架构及运行机制
Adaptive Performance in Call of Duty Mobile
Jet Set Vulkan : Reflecting on the move to Vulkan
Vulkan Best Practices - Memory limits with Vulkan on Mali GPUs
A Year in a Fortnite
The Challenges of Porting Traha to Vulkan
L2M - Binding and Format Optimization
Adreno Best Practices
移动设备GPU架构知识汇总
Mali GPU Architectures
Cyclic Redundancy Check
Arm Guide for Unreal Engine
Arm Virtual Reality
Best Practices for VR on Unreal Engine
Optimizing Assets for Mobile VR
Arm® Guide for Unreal Engine 4 Optimizing Mobile Gaming Graphics
Adaptive Scalable Texture Compression
Tile-Based Rendering
Understanding Render Passes
Lighting for Mobile Platforms
Frame Pacing for Mobile Devices
ARM Mali GPU. Midgard Architecture
ARM’s Mali Midgard Architecture Explored
[Unite Seoul 2019] Mali GPU Architecture and Mobile Studio
Killing Pixels - A New Optimization for Shading on ARM Mali GPUs
Qualcomm's Quad-Core Snapdragon S4 (APQ8064/Adreno 320) Performance Preview
Low Resolution Z Buffer support on Turnip
Render Graph与现代图形API
Hidden Surface Removal Efficiency
Unreal Engine 4: Mobile Graphics on ARM CPU and GPU Architecture
Low Latency Frame Syncing
Qualcomm® Snapdragon™ Mobile Platform OpenCL General Programming and Optimization
Qualcomm Announces Snapdragon 865 and 765(G): 5G For All in 2020, All The Details
Introduction to PowerVR for Developers
PowerVR Series5 Architecture Guide for Developers
PowerVR Graphics - Latest Developments and Future Plans
PowerVR virtualization: a critical feature for automotive GPUs
PowerVR Performance Recommendations
PowerVR Low Level GLSL Optimisation
Mobile GPU approaches to power efficiency
Processing Architecture for Power Efficiency and Performance
opengl: glFlush() vs. glFinish()
Cramming Software onto Mobile GPUs
Vulkan on Mobile Done Right
Triple Buffering
Asynchronous Shaders
Why Talking About Render Graphs
NVIDIA Variable Rate Shading
Introduction to compute shaders
Introduction to GPU Architecture
An Introduction to Modern GPU Architecture
Understanding GPU caches
Transitioning from OpenGL to Vulkan
Next Generation OpenGL Becomes Vulkan: Additional Details Released
Bringing Fortnite to Mobile with Vulkan and OpenGL ES
Appropriate use of render pass attachments
Preparing Android for XR

你可能感兴趣的:(剖析虚幻渲染体系（12）- 移动端专题Part 2（GPU架构和机制）)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。