ZJU_fish1996

[引擎开发] 渲染架构与高级图形编程

[本文大纲]

概念引入

图形API设计

OpenGL

DirectX

GPU驱动架构

Compute Shader

Indirect draw

移动端管线架构

Subpass

光照渲染路径

多线程架构

线程竞争

独立渲染/图形API线程

多线程渲染提交

ue4高级图形编程

ue4中的RHI设计

ue4中的多线程架构

ue4中的RDG架构

ue4中的Indirect draw

ue4中计算着色器应用

ue4中的移动端渲染

（注：本文内容参考了大量公开的技术分享）

概念引入

图形API提供了GPU硬件的访问接口，因此我们可以通过直接通过调用图形API来进行图形引擎开发。但图形引擎通常会在图形API的基础上做一些封装，要么是对常用方法的简单封装，要么是一套较为完整的封装体系。之所以需要引入渲染框架，往往是出于以下原因考虑：

（1）提高复用性

在图形编程中，我们会有一些比较常用的操作，比如创建屏幕大小的2D纹理，更新顶点等缓冲区的数据等，底层API接口的调用较为繁琐，因此可以对这些常用操作做一些简单封装。

更进一步的，对于图形编程而言，进行效果开发时，我们往往更关注shader编写时渲染数据的输入和输出，而不希望考虑背后数据拷贝和同步、显存分配等细节。为了将这两者更好地解耦，隐藏底层的实现细节，我们需要封装一套简单易用、性能较好的渲染框架，能够以较少的代码量/甚至图形化的形式完成逻辑的开发。

（2）通用调用

为了确保图形引擎能够适配多端，需要支持多套图形API，比如Windows端的DirectX，移动端的OpenGLES, Metal和Vulkan等，为每套API单独维护一套代码是比较繁琐的，因此我们往往考虑在API层进行封装，以便可以用同一套渲染逻辑开发多端的效果。

（3）应用高级策略

为了加快渲染数据的准备，从而提高渲染效率，我们通常会使用一些高级策略，比如多线程渲染、GPU驱动等。

图形API设计

由于渲染架构或多或少都会借鉴一些图形API的设计思想，可能是API的一些名称的沿用，或者是设计的扩展与封装。在对图形API没有基础认知的情况下，可能会难以理解有些架构设计的依据。

OpenGL

种类

OpenGL在多平台上均有对应的实现，包含Desktop OpenGL，以及适用于移动端的OpenGL ES，适用于网页端的Web GL。

OpenGL本身只是一套标准，每个硬件厂商都有自己的实现，比如在移动平台设备上就包含Mali, PowerVR, Adreno等，针对不同的实现，会有不同的适配情况。

ogl

固定渲染管线的代表。管线执行是固定的，无法进行GPU编程，只能通过CPU请求的方式修改GPU的渲染状态，比如修改相机、投影矩阵，请求绘制几何体等。

es3

最重要的变化就是支持了compute shader。

新的扩展：

曲面细分支持

command list支持：NV_command_list

设计

OpenGL是基于状态机的设计。具体表现为，每个状态的请求都使用独立的API，对于同一属性，设置的状态会一直生效，直到下一次状态设置。

我们调用的函数可以划分以下几种类型的：

① 创建/删除对象

如glGenTextures，glGenBuffers，glTextureData，glCreateShader等；

② 设置当前缓冲区

如glActiveTexture，glBindTexture，glBindBuffer等；

③ 设置缓冲区状态

如glEnableXXX,glVertexAttribPointer等；

④ 渲染提交

如glDrawArrays, glDrawElements, glDispatch等；

无论是哪个具体的模块，OpenGL的API设计都基本遵循类似的流程：

初始化数据时，创建-绑定-设置，渲染时，绑定-设置-提交。

OpenGL的语法非常简单直白，相比起Dx, Vulkan这样更偏向工程的设计，非常适合跨平台的应用或者图形算法的快速验证。

DirectX

dx11

dx11中，参数往往通过上下文结构体传递。

工作提交

它包含两种类型的context，一种是即时上下文，这意味着我们的指令会被立刻提交到图形层；另一种是延迟上下文，此时指令将被缓存，在合适的时候才添加到即时上下文并提交到图形层。

资源管理

在资源管理上，dx11将资源简单划分为如下几个类型：

（1）Default。仅GPU读写。

（2）Dynamic。CPU可频繁读写的。

（3）Staging。CPU可读取GPU显存拷贝。

显存由dx11内部分配和管理。

dx12

dx12的几个核心的设计：

GPU驱动架构

Compute Shader

计算着色器没有传统光栅化管线的流程，它的出现主要是为了解决GPU的通用计算问题。我们可以利用计算着色器，使用GPU完成并行计算。计算的结果存储在显存中，可以直接在渲染管线中使用。

通过计算着色器，我们可以完成GPU加速的物理模拟计算，如GPU粒子模拟，布料模拟等；也可以让原本由CPU负责的渲染数据准备工作转移到GPU上，即使用GPU驱动的渲染架构。

基本概念

计算着色器可以实现并行计算，它的基本概念包括输入输出（纹理或缓冲区），并行度（工作组和工作组群），并行任务的同步（共享内存和内存屏障）；它们的具体含义如下：

工作组：内部包含了用户定义的工作线程数量，在3D空间中排列，包含三个维度，可以并行执行；

共享内存：工作组内共享的内存，可读写，一般在16k-32k；

工作组群：计算着色器可以创建多个工作组，称为工作组群，并行情况取决于硬件设备支持的并行工作单元；

结果：输出到可写的纹理/缓冲区或结构缓冲区，且任意位置可写；

工作组同步

工作组同步就是让所有工作线程运行到同一个位置，然后再继续执行。

比如在共享内存写入的时候，如果下一个计算的输入依赖于上一个计算的写入，为了保证其它线程的写入已经完成，需要使用工作组同步的功能。

GroupMemoryBarrierWithGroupSync();

输入参数

GroupThreadID

GroupID

DispatchThreadID

GroupIndex

计算着色器有哪些好处？

① 支持任意位置的写入

相比起PS只能写入当前位置的像素，CS可以写入任意位置的像素。

② 显示地控制同步

通过调用GroupMemoryBarrierWithGroupSync进行主动的线程同步。传统着色器的同步往往是由于并行被打断被动进行同步。

③ 可使用共享内存

使用共享内存有如下优点：

（1）默认情况下我们会使用RT来缓存一些中间计算结果，这会导致计算需要在多个pass完成，并且会导致RT的切换。共享内存可以缓存一些中间的计算结果，支持在一个pass内完成计算，避免RT切换带来的带宽消耗。

（2）缓存贴图的采样来避免重复采样。比如图像空间算法Bloom,Blur，需要采样周围的像素，如果使用PS来计算，同一个像素会被多次采样，而使用CS可以把贴图采样的结果缓存到共享内存中，确保工作组内每个像素只会被采样一次。

（3）缓存复杂的计算结果

④ 原子操作

不同工作线程同时写入同一地址时，原子操作是非常必要的。

⑤ 与传统管线并行

IOS设备上完全并行，Mali设备上可以和Vertex Shader顺序执行，和Pixel Shader并行。可以减少输入输出的依赖，提高并行性。

计算着色器有哪些不足？

① 不支持FrameBuffer的压缩

② 不具备纹理读取缓存的硬件优化

在ps中，采样当前uv对应的纹理会更快，因为会预先缓存；

③ 纹理输出格式较少

Indirect Draw

一般情况下，在渲染调用中，我们比较常用的方式是使用CPU来提交渲染指令，准备渲染数据。

具体来说，当我们调用Draw接口的时候，我们就已经在CPU中明确了绘制对象和对应数据。而对于间接绘制而言，我们指定的并不是具体的数据，而是一个缓冲区，这个缓冲区将由GPU进行填充，一般情况下会使用计算着色器来实现GPU的数据填充。

完成了缓存区的填充后，数据将直接传递给顶点着色器进行处理。

Indirect draw的优点

这种做法的好处是，如果由CPU来准备数据，一方面会消耗CPU准备的时间，另一方面需要进行CPU和GPU的大量交互。CPU的处理任务多，时间较长，如果CPU的处理速度较慢，将会成为渲染流水线的瓶颈，降低绘制效率。如果使用GPU进行调度，就可以避免频繁的数据拷贝，并能够并行处理任务，从而加快数据准备的速度，避免其成为渲染流水线的瓶颈，提升绘制效率。

OpenGL的Indirect Draw

直接绘制的情况下，OpenGL提供的非索引版本接口如下：

void glDrawArrays(GLenum mode, GLint first, GLsizei count);

glDrawArrays在调用时并没有指定对应的渲染数据，而只是指明了调用的模式和绘制的起始位置、数量等。调用者应该确保当前OpenGL上下文已经绑定相关的缓冲区数据/Shader Program/输入输出。绘制指令将根据当前上下文中的数据进行提交。

而对于非直接绘制而言，OpenGL提供的接口如下：

void glDrawArraysIndirect(GLenum mode, const void *indirect);

此时我们不需要显式传输渲染数据，而只需指定indirect buffer。

indirect参数对应着GL_DRAW_INDIRECT_BUFFER的偏移位置。Indirect Buffer对应着这样的结构体：

typedef  struct {
   GLuint  count;
   GLuint  instanceCount;
   GLuint  first;
   GLuint  baseInstance;
} DrawArraysIndirectCommand;

这意味着我们只需要在GPU填充这样的结构体数据即可，可以使用计算着色器来完成这一点。

对于索引渲染也有类似的接口。

总体而言，大致的调用逻辑如下：

（1）并使用计算着色器或其它方法完成非直接绘制缓冲区数据的填充；

（2）绑定对应的非直接绘制缓冲区；

（3）调用非直接绘制的接口，指定基元类型以及偏移位置（一般情况不偏移为0）；

DirectX的Indirect Draw

void DrawIndexedInstancedIndirect(
  ID3D11Buffer *pBufferForArgs,
  UINT         AlignedByteOffsetForArgs
);

在dx11中，我们指定对应的缓冲区，以及缓冲区偏移值。

缓冲区结构需要设置D3D11_RESOURCE_MISC_DRAWINDIRECT_ARGS的标志。

Indirect Draw的应用

（1）基于GPU的剔除

类似基于Hi-Z的遮挡剔除算法是在GPU中实现的，如果物体在CPU中进行收集，那么就涉及到请求GPU执行遮挡剔除，并阻塞等待剔除结果的流程。但在Indirect draw流程中，就无需回读，直接可以将参数传递。

（2）程序顶点

我们可能会涉及到程序生成的网格数据，比如海水，草地，它们属于程序化资源，较少依赖美术资源，因此非常适合使用indirect draw。我们可以直接在计算着色器中生成网格数据以及相关顶点动画。

例子：https://github.com/SaschaWillems/Vulkan/tree/master/examples/indirectdraw

移动端管线架构

我们会在这一章讨论和移动端特性相关的渲染架构设计思想。

之所以要单独讨论移动端，而没有单独讨论PC端，是由移动端的特殊硬件决定的。移动端为了降低带宽消耗，减少手机发烫的情况，在架构设计上相对复杂，也做了不少妥协。针对这种特殊的情况，我们在编写图形管线的时候也应该做一些针对性的优化。而在PC端上就没有类似的问题，我们可以尽可能的使用一些高级特性，包括多核架构来提升渲染性能。

Subpass

subpass是针对移动端TBR/TDBR架构提供的一个渲染优化方案。Vulkan，Metal，OpenGL等图形API对此提供了良好的支持。

在TBR/TDBR架构中，渲染结果不再直接写入framebuffer，而是将把整块framebuffer空间拆成多个Tile，渲染结果会写入Tile上访问速度更快的on-chip memory，在当前帧绘制完成后，再把数据从Tile写入到framebuffer。通过这种方法优化了带宽消耗。

把结果从Tile写入framebuffer的过程称为Resolve，将framebuffer的内容载入Tile称为Restore。

因此，控制什么时候进行on-chip memory和framebuffer的Resolve/Restore能够较好地控制性能。在有些情况下，比如后处理阶段，我们可能需要多个pass来完成后处理操作，并且最终写入的都是同一个渲染目标。此时，我们就可以将后处理的中间结果存储到on-chip memory，等到后处理所有pass完成后，再将数据写入到framebuffer。

基于这一思路，图形API提供了subpass相关的接口，使得我们能够将一些有关联的pass合并。即使图形API层没有较为直接的接口，我们也可以在应用层通过一些渲染框架的封装来实现类似的思想。

Vulkan中的subpass

subpass这一名字源自于Vulkan图形API，Vulkan对该功能做了比较完善的封装。因此，我们先对Vulkan中subpass的设计做简单介绍。

Vulkan本身有RenderPass和subpass的概念，subpass的一些定义由VkSubpassDescription结构描述：

VkAttachmentReference colorReference = { 1, VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL }; 
// 1 : Index ..OPTIMAL : attachment type
VkAttachmentReference depthReference = { 2, VK_IMAGE_LAYOUT_DEPTH_ATTACHMENT_OPTIMAL }; 
// 2 : Index ..OPTIMAL : attachment type
VkAttachmentReference inputReference = { 3, VK_IMAGE_LAYOUT_SHADER_READ_ONLY_OPTIMAL };
// 3 : Index ..OPTIMAL : input type

subpassDescriptions[0].pipelineBindPoint = VK_PIPELINE_BIND_POINT_GRAPHICS;
subpassDescriptions[0].colorAttachmentCount = 1;
subpassDescriptions[0].pColorAttachments = &colorReference; // Output
subpassDescriptions[0].pDepthStencilAttachment = &depthReference; // Output

subpassDescriptions[0].InputAttachmentCount = 1;
subpassDescriptions[0].pInputAttachment = &inputReference; // Input

上述代码描述了将一个颜色/深度缓冲区绑定到subpass[0]上，使得subpass内可以写入颜色和深度，并绑定了一个缓冲区的数据作为输入。

OpenGL中的subpass

OpenGL没有直接提供subpass的封装，但是它支持了多个和读写相关的扩展，能够让我们做一些上层的封装：

（1）Framebuffer Fetch：可在Shader中以较低带宽采样MRT，是直接采样的硬件优化版本；

（2）Depth/Stencil Resolve : 可在Shader中获取深度/模板缓冲区；

（3）Pixel Local Storage：可在Shader中读写on-chip memory；

对于subpass而言，我们主要使用Pixel Local Storage扩展。可以在shader中控制数据在on-chip memory读写，从而实现subpass的思想。

需要通过如下宏开启扩展：

#extension GL_EXT_shader_pixel_local_storage : enable

我们可以通过扩展指定的格式来自定义在on-chip memory上读写的结构：

__pixel_localEXT FragLocalData
{
    layout(r11f_g11_b10f) vec3 Normal;
    layout(r11_g11f_b10f) vec3 Color;
} Storage;

图形API对subpass的支持

① 所有Vulkan平台都支持subpass

② 所有IOS平台都支持frame_buffer_fetch

③ 只有部分OpenGL(Android平台）支持frame_buffer_fetch

（1）Pixel Local Storage : Mail GPU & ImgTech PowerVR GPU支持，Adreno GPU不支持；

（2）FrameBuffer Fetch : Adreno GPU支持，Mali GPU不完全支持。

光照渲染路径

在渲染场景中，我们往往有多种光照和材质，计算不同光照对不同材质的影响是图形编程中非常核心的一个环节。在什么时候，以怎样的形式渲染光照也是渲染架构需要考虑的。

一般来说，我们会根据项目的实际需求，所处的平台特性进行光照渲染路径（Shading Path)的选择。

在移动平台上，在早期阶段，由于手机的带宽有限，往往会选用前向渲染的技术方案，forward+在forward的基础上对光照计算进行剔除。延迟光照通常用于pc或主机平台，但目前也已经开始出现基于移动端优化的延迟光照。

接下来将会对每种渲染路径做一个简单的介绍。

前向光照

前向光照是一个相对简单的渲染路径，在绘制物体的同时直接进行光照的计算，它的优点如下：

（1）实现比较简单

（2）能够实现任意多的着色模型数量

（3）输入参数的数量限制较小

（4）没有额外的带宽和显存占用

（5）能够应用硬件反走样

缺点如下：

（1）无法获取足够多的信息，难以应用一些高级效果（如贴花）

（2）多光照情况下计算量较大，为m(光照数量）* n(物体数量）次，overdraw比较严重

(3）为了处理不同光照类型，shader代码中需要包含不同光照类型的组合，导致shader代码占用内存过大

Forward+

前向光照计算在处理有大量光照的场景时性能会快速地达到瓶颈。针对这一问题，我们对forward算法进行了改进，称为forward+。

场景中主光源的数量是有限的，一般会用到大量光源的情况主要是局部灯光。局部灯光的特点是，只会对场景中的部分物体产生光照影响。因此，我们没有必要对所有物体都计算光照，只需要对受到光照影响的物体进行计算即可。

但是，着色器无法知晓每个对象具体受到哪些光照影响，这就需要我们预先准备这些数据。

为了实现这一点，forward+在forward的基础上在着色阶段前新增了light-culling阶段。我们可以在CPU中实现基于对象的光照记录，但是这种方法并行度较低；也可以在GPU中实现光照记录，一般会使用计算着色器实现对应功能。

由上可见，forward+能够更好地处理多光照的情况，减少不必要的计算，但是也会带来一些管理开销，实现也相对复杂一些。因此我们应该根据场景的实际光照情况选择合适的光照渲染路径。

延迟光照

通俗来说，延迟光照会在后处理阶段进行光照计算。

延迟光照主要分为两个阶段：

第一个阶段，我们渲染所有物体，并将渲染的数据写入到多张渲染目标，称为GBuffer，这些数据包括基本颜色、法线、深度、材质属性等；

第二个阶段，我们根据GBuffer中的信息，进行屏幕空间的光照计算，得到最终渲染的结果。

它的优点如下：

（1）多光照情况下，以较低的复杂度绘制。它的复杂度和物体数量无关，对于m个光源，屏幕空间每个像素只需计算m次。overdraw带来的消耗更低。

（2）记录了GBuffer信息，对一些高级的屏幕空间算法的实现更友好

（3）将材质和光照计算的过程分离，减少所需的shader数量

缺点如下：

（1）用到多张渲染目标，带来严重的带宽消耗和显存占用

（2）材质信息需要记录在GBuffer中，限制了材质的多样性

（3）无法应用硬件反走样，需要自己实现相关AA算法

（4）对透明物体没有较好的处理办法

Tile-Based延迟光照

我们知道移动端无法很好地应用延迟光照主要就是因为带宽问题。随着图形API的发展，近几年也出现了针对移动端优化的延迟渲染，也就是基于前文提到的subpass技术实现的延迟光照。

此时，光照绘制分为两个步骤：

① 物体写入GBuffer，GBuffer存储于on chip memory。

② 利用GBuffer进行光照计算，将最终颜色写入framebuffer。

在此过程中，实际上GBuffer只作为中间过程量存在，因此也就在保留延迟渲染减少overdraw的优点的情况下，避免了GBuffer写入带来的带宽消耗。但同时，也失去了传统延迟光照的一些优点，比如后处理阶段无法利用GBuffer信息作为输入，因为此时GBuffer是memoryless的。

混合管线

在实际的项目中，不同的渲染路径没有绝对的区分，整个管线可能是混合的，比如我们会遇到如下情况：

① 在延迟管线中，大部分光照是后处理完成的，但是仍然有一些简单光照计算可能放到前向阶段就完成了，直接写入到SceneColor中；

② 在延迟管线中，会单独处理透明物体，让其依然按照forward管线进行绘制；

在很多情况下，我们会发现，有些渲染算法本身可能并不复杂，有时候真正的难点在于如何使用一套渲染框架描述尽可能多的着色模型，并且保证性能和易用性。因此，在处理渲染管线时，也会为了更好地适配更多效果做或多或少的妥协，加上各种各样的特殊处理。我们也就会吸取不同渲染路径的优点来实现最终的渲染架构。

多线程架构

线程竞争

在多线程编程中，我们经常会有多线程访问数据的需求，当同一时间有多个线程都想要访问同一个数据时，就会出现线程的竞争。为了解决这一问题，我们主要从两个角度考虑，第一个是针对特定场景从架构上避免线程竞争的发生；另一个是如果无法避免线程竞争应该采用的解决方案。

我们将在这一章节做一些简单的介绍，并在后续多线程编程中进行更为详细的介绍。

(1) 加锁 / 线程安全的容器

这是解决线程之间竞争最通用的一种方法，适用于大部分场景。

当其中一个线程访问数据时，对其上锁，在此期间，其它线程将阻塞等待锁的释放，并行被打断。线程之间的竞争现象越严重，对性能的影响越大。

（2）同步点的设置

我们可以通过设置同步点来确保逻辑的先后执行顺序。较为常见的应用是，当进行多线程数据写入后，应该设置同步点，保证所有数据都已经完成写入。接下来的步骤再访问这些写入的数据才是安全的。

（3）唯一的访问所有权

还有一种比较常见的方案是，只能允许一个线程对数据进行直接访问，如果其它线程也希望访问这一数据，需要请求有权限的线程，具体表现为将添加/修改/删除封装为命令，添加到命令队列中。这意味着这些操作是录制的，是异步请求/延迟发生的。

在图形编程中，我们通常会仅让渲染线程拥有对渲染数据的访问权限。

（4）拷贝数据 / 双队列

对于每帧的渲染数据这种无状态的上下文数据（Context），它的数据传递关系比较简单，通常是在主线程将一些原生数据传递给渲染线程处理。这里可能出现线程竞争的地方是，如果主线程和渲染线程共用同一份数据，当渲染线程处理前一帧数据时，主线程对其访问就会发生竞争。

针对这种情况，我们往往使用双队列（渲染线程和主线程操作自己的队列）或者数据拷贝（每个线程维护自己特定的数据结构）的方式，从根源上避免竞争的问题发生。

（5）环形队列

环形队列通常应用于任务提交，如逻辑线程提交任务，渲染线程执行任务。可仅使用栅栏防止两者同时访问一个数据，避免了对每个数据的读写都要进行加锁操作。

独立渲染线程和图形API线程

独立的渲染线程是指执行准备渲染数据、提交渲染指令过程的线程。这一过程相比起逻辑线程，通常执行时间较长。使用独立的线程可以提高并行度，减少GPU的等待。

此外，为了减轻渲染线程的压力，也会考虑将提交渲染指令这一过程从渲染线程中分离出来，放入单独的图形API线程中。该线程根据渲染线程准备的数据，调用图形API。图形API线程与渲染线程的交互类似于渲染线程和逻辑线程的交互，因此后文将以逻辑线程和渲染线程的交互为例进行介绍。

为什么渲染线程能够提升渲染效率

传统的单线程架构中，我们会在一帧内完成逻辑更新以及渲染绘制。这意味着，当我们在执行逻辑更新时，GPU将进入等待状态。当GPU有机会处于空闲状态时，说明我们没有完全榨干GPU的性能，这带来了资源的浪费。

而将任务并行化后，渲染线程将一直处于活跃状态，此时GPU等待的概率降低，渲染效率得到提升。

另一方面，对于多核CPU硬件，当我们在执行逻辑更新时，有些CPU可能也处于空闲状态，此时并行地执行渲染任务，也能提升CPU的利用率。

概括来说，就是让CPU和GPU时刻都处于高速运转的状态。

逻辑线程和渲染线程

逻辑线程和渲染线程并不是完全独立的，它们存在一定的依赖关系：

（1）渲染线程需要接收来自逻辑线程的指令和数据并执行

（2）逻辑线程有时需要阻塞等待渲染线程的完成

数据访问

在数据访问上，参考线程竞争章节，一般会遵循唯一的访问所有权，并维护拷贝数据或双队列结构。

(1) 双队列结构

其中，双队列结构意味着当逻辑线程往队列A写入的时候，渲染线程读取队列B的内容，等逻辑线程完成了队列A的写入后，交换两个队列。也就是渲染线程读取队列A的内容，而逻辑线程写入队列B。

这样的数据结构可以确保两个线程不会同时访问同一队列，但是，这也意味着两者必须有严格的先后执行顺序。

(2) 拷贝数据

逻辑线程的数据提交到渲染线程时，渲染线程会维护一份独立的数据拷贝。在牺牲一部分空间的情况下，避免数据的竞争。并且该方法对先后执行顺序没有过多限制。

需要注意的情况是指针的拷贝。我们应该尽可能避免指针的浅拷贝，而是直接缓存对应的数据，或者为指针添加引用计数。除非我们能够确保逻辑线程不会直接对指针做修改或销毁的操作，或者确保正确的先后执行顺序。

渲染线程资源访问权

在渲染线程架构里，数据的传输绝大部分都是单向的，也就是只应该从逻辑线程传往渲染线程。当一个数据提交到渲染线程，我们就认为它应该归渲染线程管理，如果想要访问或者修改渲染数据，应该请求渲染线程执行这一操作。

数据的生命周期

在渲染提交过程中，存在两部分数据：

（1）跨帧存储的数据。主要是场景对象数据，包括几何体、灯光等。

（2）每帧的上下文数据。比如当前相机、投影矩阵，渲染状态等。这类数据要么是每帧计算得到的，要么是每次提交指令时重新构造的非缓存状态。

在设计渲染线程的时候，应该合理管理并区分这两种不同生命周期的数据类型。

逻辑线程和渲染线程同步

逻辑线程向渲染线程通过添加指令的方式进行数据和逻辑的交互，命令队列通常由环形队列进行维护。

我们往往用类来封装每个命令，并且将类的结构以字节码（Buffer）的形式进行管道数据传输。

请求分为不需要返回值/同步和需要返回值/同步两种情况。对于前者，通常适用于添加灯光/几何体等简单的请求指令；对于后者，我们可能需要返回值，比如，我们在逻辑层请求渲染线程对当前画面进行拍摄，并能在逻辑线程读取这张快照。

返回值的读取分为同步和异步两种。同步意味着我们将堵塞等待，异步意味着我们将设置一个同步点，当渲染线程完成当前命令后，发起异步回调。

多线程渲染提交

多线程渲染提交是指渲染指令的异步提交，这需要图形API和硬件的支持。

这意味着我们可以异步地通过图形API渲染指令提交到不同的命令队列。

多线程渲染提交能够很好地减轻CPU到GPU传输数据的压力，提升drawcall效率。

如图所示，独立的渲染线程意味着Command Queue的提交在渲染线程上完成，而多线程渲染意味着可以有多个CommandQueue同时运行。

ue4高级图形编程

ue4中的RHI设计

RHI，即Render Hardware Interface，它基于不同的图形API以及硬件，封装了统一的渲染逻辑，隐藏了图形API的底层实现逻辑。ue4的渲染接口封装风格语法更接近现代语法的DirectX，渲染指令将通过RHICommandList设置。

统一封装

对于调用者而言，只需执行RHI层提供的统一图形接口，函数内部将通过GDynamicRHI指针索引到对应的图形API实例。对于相同的代码，GDynamicRHI在不同平台下将会实例化为不同的对象，比如，在pc机上将调用directX，在移动设备上则会调用metal/OpenGL等。

以纹理创建为例，DynamicRHI就包含了如下多种实现：

RHI的封装从封装粒度来区分，包含两种不同的类型：一种是对图形API的直接转发，另一种是对图形API的简单二次封装。

ue4中的多线程渲染

数据的线程安全

（1）几何体独立的线程数据

对于每个对象的几何体数据，在不同线程有各自的数据结构，分别是MeshComponent，Scene Proxy和Vertex Factory：

① UPrimitiveComponent对应游戏线程私有的几何体数据；

② FPrimitiveSceneProxy/FPrimitiveSceneInfo对应渲染线程中的几何体数据，它用于准备渲染数据时，组装几何体数据，以便生成对应的渲染指令；

其中，Proxy用于数据从游戏线程到渲染线程的交互，而SceneInfo是渲染线程私有的。

③ FVertexFactory对应于RHI层的网格数据，FMatertial对应于RHI层的着色器数据

之所以要封装多个结构，并在不同结构之间拷贝数据，是出于线程安全考虑。为了避免资源竞争，ue4采取的办法就是在不同线程进行数据交互时，记录独立的数据拷贝。

（2）独立线程数据结构间数据的传递

初始化：

在游戏线程中，我们通过调用FScene::AddPrimtives(RendererScene.cpp)，创建FPrimitiveSceneProxy，再基于SceneProxy创建对应的SceneInfo。

在渲染线程中，将SceneInfo加入到对应的Primitives数组中。

修改：

游戏线程修改了PrimitiveComponent属性后，需要调用MarkRenderStateDirty来通知渲染线程更新数据。

渲染线程检测到RenderState状态发生变化后，会先销毁原有RenderState并请求创建新的RenderState。

（3）线程竞争

虽然ue4已经提供了线程独立的数据结构，但是如果在Proxy中传递指针或引用，依然存在风险。

比如我们将一个UObject传递给Proxy结构，此时如果在渲染线程中访问这个数据，就可能会有线程竞争的问题，因为这个数据可能已经被游戏线程回收了。

为了避免这个情况，我们可以：

① 尽量存储对应的数据而不是使用指针的直接复制；

比如我们想要在渲染线程访问AActor的一个值属性，可以直接在Proxy中镜像这个属性，而不是缓存AActor指针。

② 尽可能从设计上避免在游戏线程和渲染线程访问同一份数据；

一些渲染线程特有的函数使用_RenderThread的后缀，这些函数操作渲染线程私有的数据。

③ 确保渲染线程引用数据的时候，数据不会被删除；

比如在UPrimitiveComponent准备销毁自身的时候，可以添加一个DetachFence，等到渲染线程完成后，gc再去真正销毁数据。

（4）其余独立的线程数据

除了几何体有独立的线程数据外，大多数常见的结构也有各自对应的结构。一般而言，游戏线程数据结构以U开头，渲染线程数据结构以F开头。

比如，UWorld对应于FScene，FSceneView对应于FViewInfo。

（5）显存数据管理

如上所提，ue4维护了以F开头的显存数据。这些数据是仅渲染线程可访问的。如果游戏线程希望访问渲染数据，需要使用间接的方式，即通过命令队列来完成。

举例而言，如果我们希望释放纹理资源，应该通知渲染线程来完成这一操作。这个操作不是立即执行的，而是会加入到渲染队列，按序执行。

void UTexture::ReleaseResource()
{
	if (Resource)
	{
		
        // ...
		ENQUEUE_RENDER_COMMAND(DeleteResource)([ToDelete = Resource](FRHICommandListImmediate& RHICmdList)
		{
			ToDelete->ReleaseResource();
			delete ToDelete;
		});
		Resource = nullptr;
	}
}

渲染线程

ue4包含了主线程，渲染线程以及（可选的）RHI线程。

主线程通过抽象的命令队列向渲染线程添加命令，渲染线程通过图形API的命令队列向图形管线添加命令。

由于渲染线程较为耗时，它往往大幅落后于游戏线程，为了减少两者的差距，游戏线程在Tick结束后会阻塞等待，直到渲染线程仅落后于游戏线程一两帧左右。

线程通讯

我们通过如下宏从主线程向渲染线程添加命令：

	ENQUEUE_RENDER_COMMAND(CommandName)(LambdaFunction);

较早的ue4版本中，添加命令的宏还有_ONEPARAM, _TWOPARAM的后缀，目前已经借助匿名函数实现了无需指定参数数量的通用形式。需要注意的是，匿名函数的传参应该为值传递。

可以看出相当于调用了EnqueueUniqueRenderCommand函数，并传入lambda函数作为函数参数：

#define ENQUEUE_RENDER_COMMAND(Type) \
	struct Type##Name \
	{  \
		static const char* CStr() { return #Type; } \
		static const TCHAR* TStr() { return TEXT(#Type); } \
	}; \
	EnqueueUniqueRenderCommand

在实际调用中，如果支持独立的渲染线程，则会根据传入的CommandName生成一个继承自FRenderCommand的渲染指令类，并基于这个类请求TaskGraph构造一个任务。

template
FORCEINLINE_DEBUGGABLE void EnqueueUniqueRenderCommand(LAMBDA&& Lambda)
{
	QUICK_SCOPE_CYCLE_COUNTER(STAT_EnqueueUniqueRenderCommand);
	typedef TEnqueueUniqueRenderCommandType EURCType;

	if (IsInRenderingThread())
	{
		// ...
	}
	else
	{
		if (ShouldExecuteOnRenderThread())
		{
			CheckNotBlockedOnRenderThread();
			TGraphTask::CreateTask().ConstructAndDispatchWhenReady(Forward(Lambda));
		}
		else
		{
			// ...
		}
	}
}

线程同步

当我们希望同步游戏线程和渲染线程时，可以在游戏线程中新建一个fence，即 FRenderCommandFence::BeginFence，此时，相当于往命令队列里添加了一个任务；然后调用FRenderCommandFence::Wait进行阻塞，相当于等待刚刚加入的任务被触发；或者调用IsFenceComplete或GetNumPendingFences去查询当前任务是否已经完成。如果新加入的空任务被触发，意味着同步完成了。

此外，也可以调用FlushRenderingCommands阻塞游戏线程，使得渲染线程完全赶上游戏线程。

并行提交

ue4支持并行地提交渲染指令。

常用的资源屏障设置，设置Shader参数，创建缓冲区或缓冲区等都属于渲染指令。

并行提交包含了两个模块，一个是CPU端支持任务的并行提交，这可以通过ue4的TaskGraph系统完成，根据预设的每个任务处理最少指令数和线程数进行任务分配；

另一部分是GPU端需要支持任务的并行处理，这需要图形API的支持。比如dx11的延迟提交，dx12的多个command list。

当我们调用CommandList的函数RenderFunction时，内部通常会根据当前是否支持并行渲染，来选择立即执行渲染指令，或是添加渲染指令到渲染队列中。

	void RenderFunction()
	{
		if (Bypass())
		{
			GetContext().FunctionName();
		}
		else
		{
			ALLOC_COMMAND(PassClassName)();
		}
	}

通过ALLOC_COMMAND宏，我们从内存管理器申请了新的指令空间，并将指令添加到CommandLink链表结构中。

添加到队列中的指令，将在FRHICommandListExecutor::ExecuteList调用后执行。

并行提交包含异步提交和非异步提交。

对于异步提交而言，将创建一个“分发任务”的任务，该任务将作为调度者，异步创建RHI相关的异步任务；而对于非异步提交而言，则会立刻创建RHI相关的异步任务。

线程同步

和游戏线程调用FlushRenderingCommands一样，如果希望RHI完全追上渲染线程的速度，也可以调用ImmediateFlush函数进行同步。

根据同步的情况不同，分为几个等级的同步策略：

① 仅等待WaitOutstandingTasks队列里的任务完成；

② 强制执行命令队列里的命令；

③ 强制执行命令队列里的命令，并等待异步分发任务完成；

④ 强制执行命令队列里的命令，并等待异步分发任务和RHI任务完成。

⑤ 强制执行命令队列里的命令，并等待异步分发任务完成和RHI任务完成，且刷新资源和PSO状态。

可以看出，从③到以上才开始涉及到线程间的同步，而这样的同步在渲染逻辑中并不会过多的出现。更多会被使用到的是第②级的强制执行命令，这使得渲染端可以主动地控制指令执行的时间点，因此它会在整个主渲染流程中被反复调用。

其中强制执行命令分为两个情况，一个是RHI位于独立线程，一个是无独立线程。

对于独立的RHI线程，我们需要执行如下几个步骤：

（1）清空已经完成的任务事件；

其中RHIThreadTask和PrevRHIThreadTask记录普通的分发任务，RenderThreadSublistDispatchTask记录异步分发任务的任务

（2）缓存获取当前的任务队列，并创建新的任务队列用于下次使用；

（3）如果支持异步提交，那么我们创建异步提交的任务，并且需要标记每个分发任务与事件的对应关系，使得同步时能够知道应该等待哪个事件来确保执行完成；否则，直接添加RHI的任务，并记录上一个RHI任务；

（4）如果需要强制刷新队列，则应该分别等待SublistDispatchTask和所有RHIThreadTask；

而对于非独立的RHI线程，我们直接等待所有任务完成后，清空任务队列。

ue4中的Indirect draw

Indirect draw更适用于一些程序化资源，比如地形、水体、植被等。ue4中也有少量的indirectdraw的实例，可以作为参考。

绘制时调用的核心API为RHI层的DrawPrimitiveIndirect/DrawIndexedIndirect。

一个使用的实例就是应用于水面上的Tiled Screen Space Reflection。

首先使用一个计算着色器，将屏幕划分为多个tile，并判断每个tile中是否包含水体（通过shadingmodel），接下来利用输出的多个tile信息，通过indirect draw，只对包含水体的tile进行屏幕空间反射的计算，最后再将反射/天光/IBL等和水体效果结合。

概括而言，indirect draw的实现主要包含两步，一步是使用cs生成水体的TileBuffer，另一步是利用TileBuffer进行indirect draw的SSR。使用indirect draw主要的好处在于可以仅在一个drawcall期间完成多个Tile的处理，而无需逐Tile进行drawcall。

ue4中的RDG架构

RDG，也就是渲染依赖性图表（Rendering Dependency Graph)，这是一个基于图表的调度系统，是ue4提供的一套渲染框架解决方案。

它开放和传统渲染框架类似的接口，比如创建纹理、缓冲区等。但和传统渲染框架即时执行不同，RDG是延迟的，它会在收集完当前帧的所有指令后，再根据已有信息进行合理的调度和执行。

例如，RDG会考虑到如下细节：合理调度计算密集型和带宽密集型的渲染指令，合理的资源屏障设置和同步策略，合理的内存和生命周期管理等。

RDG的原理简介

我们在图形编程，尤其是在有多个pass阶段的情况下，会遇到比较复杂的引用关系，比如我们需要在一些pass中写入某些数据，并在另一些pass中读入这些数据，形成资源读写依赖关系；又比如两个pass可能都只需要同一个只读数据的输入，形成非依赖但引用资源的关系。这就需要我们仔细地考虑pass顺序的先后，资源引用带来的屏障设置，避免同一资源引用时每个pass都反复解析等等。

RDG框架的诞生就是为了自动处理这些繁琐的操作，让图形编程者从复杂的依赖引用关系中解放出来，更好地关注于图形算法本身的实现细节。

RDG使用例子

RDG架构模拟了即时调用模式的接口设计，两次Execute调用间不会保留任何状态，每次调用都将重建整个图形依赖关系。

对于使用者而言，只需定义RDG实例，设置相关数据并执行。举例来说，对于绘制深度的Pass而言：

	if (bShouldRenderCustomDepth)
	{
		FRDGBuilder GraphBuilder(RHICmdList); // 1.定义RDG
		RenderCustomDepthPass(GraphBuilder); // 2.设置相关数据
		GraphBuilder.Execute(); // 3.执行
	}

对于深度绘制这一pass，设置相关数据包含了这些操作：

① 请求分配当前pass的参数：

FCustomDepthPassParameters* PassParameters = GraphBuilder.AllocParameters();

② 绑定pass的参数：

PassParameters->RenderTargets[0] = FRenderTargetBinding(CustomDepthTextures.MobileCustomDepth, DepthLoadAction);
PassParameters->RenderTargets[1] = FRenderTargetBinding(CustomDepthTextures.MobileCustomStencil, StencilLoadAction);

PassParameters->RenderTargets.DepthStencil = FDepthStencilBinding(
    CustomDepthTextures.CustomDepth,
    DepthLoadAction,
    StencilLoadAction,
    FExclusiveDepthStencil::DepthWrite_StencilWrite);

③ 请求分配场景纹理：

PassParameters->MobileSceneTextures = CreateMobileSceneTextureUniformBuffer(GraphBuilder, EMobileSceneTextureSetupMode::None);

④ 添加pass。可以发现具体的渲染调用封装在lambda函数中，这意味着当前设置只是进行了操作的记录，而调用将在Execute函数执行后才被真正执行。

GraphBuilder.AddPass(
    RDG_EVENT_NAME("CustomDepth"),
    PassParameters,
	ERDGPassFlags::Raster,
	[this, &View](FRHICommandListImmediate& RHICmdList) 
    { 
        //... 
    });

以上几个步骤基本概述了如何使用RDG框架去定义一个渲染pass。

RDG接口设计

总而言之，RDG框架提供了如下接口：

① 创建新纹理 / UAV / SRV / Buffer

使用RDG创建的数据仅在RDGBuilder生存期内有效，因此这些数据只用于创建一些临时数据。

由于RDG创建的纹理并不会立即分配，因此不能使用原有的纹理类型。

FRDGTexture* Texture = GraphBuilder.CreateTexture(TextureDesc, TEXT("NAME")); // 创建纹理
FRDGTextureUAV* TextureUAV = GraphBuilder.CreateUAV(TextureUAVDesc); // 从纹理创建UAV
FRDGTextureSRV* TextureSRV = GraphBuilder.CreateSRV(TextureSRVDesc); // 从纹理创建SRV 

FRDGBuffer* DrawIndiretParametersBuffer = GraphBuilder.CreateBuffer(IndirectArgBufferDesc, TEXT("DOFIndirectDrawParameters")); // 创建Buffer
PassParameter->OutScatterDrawIndirectParameters = GraphBuilder.CreateUAV(DrawIndirectParametersBuffer); // 从Buffer创建UAV

② 定义，分配和设置pass参数

定义pass参数可以使RDG资源和pass产生关联，如果仅分配pass参数而不进行关联，那么pass参数将是无效的。

它和着色器参数结构的定义放到一起，仅在名字上有一定差别，多了一个RDG的标识：

BEGIN_SHADER_PARAMETER_STRUCT(FParameters, )
    // SHADER_PARAMETER_TEXTURE(Texture2D, MyTexture) // 原有的纹理声明方式
    SHADER_PARAMETER_RDG_TEXTURE(Texture2D, MyTexture) // RDG纹理生命方式

    SHADER_PARAMETER_RDG_TEXTURE_UAV(RWTexture2D, MyOutputUAV) // 像素着色器绑定UAV

    SHADER_PARAMETER_RDG_BUFFER(StructuredBuffer, ScatterDrawList) // 使用SRV从Buffer读取数据

    RENDER_TARGET_BINDING_SLOT() // 提供渲染目标和深度模板的输入
END_SHADER_PARAMETER_STRUCT()

通过相关的shader宏，我们可以获取pass关联的RDG资源，并对pass进行相关的资源注册。RDG能够基于使用情况来推断资源的生命周期，并了解到pass是如何使用该资源（作为输入或输出），从而进行资源屏障的自动设置。

③ 添加Pass

和上述演示的深度绘制pass类似，主要分为以下三步：

// 1.分配参数 
FMyShaderCS::FParameters* PassParameters = GraphBuilder.AllocParameters();

// 2.设置参数
Parameters->SceneColor = SceneColor;
// ...

// 3.添加pass
GraphBuidler.AddPass(
    RDG_EVENT_NAME("MyShader %dx%d", View.ViewRect.Width(), View.ViewRect.Height()),
    PassParameters,
    ERenderGraphPassFlags::Compute,
[PassParameters, ComputeShader, GroupCount] (FRHICommandList& RHICmdList)
{
    // ...
});

添加pass时，参数包含一个可用于调试分析的事件名（发行版本将去除），pass相关的参数，pass类型标记，以及对应的绘制Lambda函数。

在lambda函数调用期间，可以认为RDG资源是已分配且可安全访问的。由于lambda函数将延迟执行，为了避免引用失效，需要显式单独捕获参数。

④ 绑定深度渲染目标/颜色渲染目标

对于一些渲染目标而言，它的创建独立于RDG系统外。RDG支持对外部渲染目标进行绑定，同时我们可以指定外部渲染目标的加载（是否清空）/存储的特性。

PassParameters->RenderTargets[0] = FRenderTargetBinding(
     Outputs.SceneColor,
     ERenderTargetLoadAction::ENoAction,
     ERenderTargetStoreAction::EStore); // 绑定颜色渲染目标

PassParameters->RenderTargets.DepthStencil = FDepthStencilBinding(
     SceneBlackboard.SceneDepthBuffer,
     ERenderTargetLoadAction::ENoAction, ERenderTargetStoreAction::ENoAction,
     ERenderTargetLoadAction::ELoad, ERenderTargetStoreAction::EStore,
     FExclusiveDepthStencil::DepthRead_StencilWrite); // 绑定深度渲染目标

另外一些渲染对象可能是由ue4中的渲染对象池，即IPooledRenderTarget接口分配的，RDG如果需要引用到这些资源，可以调用相关的注册接口建立外部引用关系：

TRefCountPtr RawSceneColorPtr = ...
FRDGTexture* SceneColor = GraphBuilder.RegisterExternalTexture(RawSceneColorPtr, TEXT("SceneColor"));

⑤ 屏幕空间的pass

有许多图形算法是基于屏幕空间，比如SSS，SSR，TAA等，它们之间纹理输入输出上存在一些共性。为了使得这一类算法的调用更加简单，ue4提供了针对屏幕空间算法的封装。

class FScreenPassTextureViewport
{
// ...
FIntRect Rect;  // 视口矩阵，定义了位于[0, extent]的子矩形
FIntPoint Extent = FIntPoint::ZeroValue; // 矩形宽度
}

对于屏幕空间的算法而言，它的输入输出纹理和屏幕分辨率是关联的，因此应该提供相关类来简化输入输出纹理的操作；此外，输入和输出视口不一定是完全一致的，举例来说，有时我们需要写入降分辨率（1/2屏幕分辨率或1/4屏幕分辨率）的纹理。

ue4定义了一个针对屏幕空间pass的着色器参数结构FScreenPassTextureViewportParameters，我们可以在着色器参数结构中直接引用这一结构：

BEGIN_SHADER_PARAMETER_STRUCT(FParameters, )
    SHADER_PARAEMETER_STRUCT(FScreenPassTextureViewportParameters, Velocity)
END_SHADER_PARAMETER_STRUCT()

接下来，调用GetScreenPassTextureViewportParameters，将其添加到pass参数：

FVelocityFlattenCS::FParameters* PassParameters = GraphBuilder.AllocParamaters();
PassParameters->Velocity = GetSreenPassTextureViewportParameters(VelocityViewport);

在shader中，只需要一个宏（定义于ScreenPass.ush）就可以引入当前纹理：

// 定义纹理视口参数
SCREEN_PASS_TEXTURE_VIEWPORT(Velocity)

上面描述的大部分细节，都封装在绘制屏幕空间pass的API中，在我们不需要比较细致的控制时，可以直接调用这一函数：

template
inline void AddDrawScreenPass(
    FRDGBuilder& GraphBuilder,
    FRDGEventName&& PassName,
    const FScreenPassViewInfo& ScreenPassView,
    const FScreenPassTextureViewport& OutputViewport,
    const FScreenPassTextureViewport& InputViewport,
    TPixelShaderType* PixelShader,
    typename TPixelShaderType::FParameters* PixelShaderParameters) { }

此外，框架提供了简单的类型转换，可以将uv坐标从一个视口空间映射到另一个视口空间。

FScreenPassTextureViewportTransform GetScreenPassTextureViewportTransform(
    const FScreenPassTextureViewportParameters& Source, 
    const FScreenPassTextureViewportParameters& Destination);

在shader中，通过scale和bias进行计算：

SCREEN_PASS_TEXTURE_VIEWPORT_TRANSFORM(ScreenColorToVelocity)

float2 VelocityUV = ScreenColorUV * SceneColorToVelocity_Scale + SceneolorToVelocity_Bias;

实现细节

了解了RDG的基本使用后，我们可以关注一下RDG系统做了哪些事情。整个系统主要分为两个模块，一个是RDG对资源的二次封装，另一个是RDG的调度系统。如上图所示，当我们收集完成所有的pass信息后，在最终的执行阶段，RDG系统依次完成了编译、创建显存资源和资源屏障以及执行渲染逻辑的过程。

RDG资源结构

ue4中实际的显存资源主要是通过RHI接口创建的。而对于RDG系统而言，为了更好地管理资源，它单独封装了RDG的资源，比如FRDGTexture, FRDGBuffer等。

RDG资源内部包含了RHI显存资源，也包含了RDG相关的一些资源属性。当我们调用RDG的创建资源接口时，只填充了它的资源属性，在实际调用执行时，才会去填充RHI显存资源相关的内容。

就资源属性而言，一部分属性是资源本身的属性，比如大小、类型等；另一部分是为了计算生命周期、引用关系而记录的属性。

pass引用资源

当pass被设置的时候，RDG框架需要做一些预处理，比如初始化pass的访问数据和关联pass信息等，以及收集当前pass引用的所有资源。

如前文所提及，我们通过shader parameter框架设置RDG的参数，并在初始化pass时将pass和对应shader参数绑定。在做了前面一系列准备操作的情况下，RDG框架能够很方便地通过解析RDGParameterStruct的数据来获取RDG引用的资源。

编译/预处理

在完成了pass的收集后，RDG首先需要对所有pass做一遍处理：

① 遍历所有图中的Pass，构建生产者/消费者的依赖关系；初始化光栅化、异步计算等Pass列表。

pass之间会构造出一个有向拓扑图的关系，为了便于管理，还添加了两个特殊的pass，即ProloguePass和EpiloguePass。

ProloguePass和EpiloguePass是标记位，用于简化屏障和遍历的图形逻辑。Prologue pass用于处理图执行之前的屏障，而Epilogue pass用于资源提取屏障——这也使得它可以作为剔除节点时的搜索入口。Epilogue pass被添加到passs数组的结尾，以便于进行遍历。prologue pass不需要参与任何遍历。

② 根据构建好的依赖关系，以特殊的从不剔除的pass，和有离开图的输出的pass作为根节点，进行深度搜索。未访问到的Pass将被剔除。

③ 遍历剔除后的图，并对所有子资源设置合适的屏障。以一种相对保守的策略对一些冗余的屏障进行合并。

我们会记录每个pass中引用的texture, buffer以及这些资源在当前pass的状态。

这个状态包含资源的访问屏障，所处管线，以及当前屏障下的第一个pass和最后一个pass等。

我们要做的事情是，检查资源在当前pass的状态和资源原本的状态能否合并。

以下状态是不能被合并的：

（1）原本只读，之后可写状态

（2）原本只写，之后可读状态

（3）对于纹理，前后状态包含了任一除只读以外的状态

（4）前后有一个为UAV状态

（5）前后不出在同一个管线，或者转换状态不一致

如果不能合并的话，就意味着我们要标记创建一个新的资源屏障。此外，如果前后的管线也发生了变化的话，我们还需要新增前后两个pass的生产者/消费者依赖关系（从资源的上一个引用pass到当前pass）。

④ 异步计算预处理

为了合理地调度异步计算，我们应该找到异步计算与图形管线的依赖关系，具体而言，即异步计算依赖于哪些图形管线的输出作为输入（生产者），哪些图形管线依赖异步计算的输出作为输入（消费者），我们把前者过程称为fork，后者过程称为join。

我们无需收集所有的生产者和消费者，而只需找到每个异步计算pass中最早的跨管线消费者和最近的跨管线生产者。这样有助于构建计算重叠区域时缩小搜索空间。

建立fork/join重叠区域以进行异步计算。这用于同步屏障以及资源分配和释放。直到fork/join完成之后，异步计算过程才分配或释放资源引用。因为两个管道是并行运行的，因此，异步计算上所有资源生存期都得到扩展，以覆盖整个异步区域。

⑤ 遍历图形管线，将具有相同渲染对象的图形pass合并到单一RHI渲染pass。

创建资源

调用者调用资源创建接口时，并没有真正地去申请相关资源，只是留了下需要创建资源的记录。因此，接下来RDG系统需要遍历所有的申请记录，并逐一创建对应的显存资源。

显存资源的创建依然使用了ue4的标准接口，如下：

// UniformBuffer的创建
FRDGUniformBuffer* UniformBuffer;
UniformBufer->UniformBufferRHI = RHICreateUniformBuffer(PassParameters.GetContents(), PassParameters.GetLayout(), UniformBuffer_SingleFrame, Validation);

// Texture的创建
FRDGTextureRef Texture;
TRefCountPtr PooledRenderTarget = GRenderTargetPool.FindFreeElementForRDG(RHICmdList, Texture->Desc, Texture->Name);
Texture->SetRHI(PooledRenderTarget, PreviousOwner);

// SRV的创建
FRDGTextureSRVRef SRV;
FShaderResourceViewRHIRef RHIShaderResourceView = RHICreateShaderResourceView(PooledTexture->Texture, SRV->Desc);
SRV->ResourceRHI = RHIShaderResourceView;

// Buffer的创建
FRDGBufferRef Buffer;
TRefCountPtr PooledBuffer = GRenderGraphResourcePool.FindFreeBuffer(RHICmdList, Buffer->Desc, Buffer->Name);
Buffer->SetRHI(PooledBuffer, PreviousOwner);

由上可以看出，SRV,UAV等资源是通过RHI相关的接口直接创建的，因为是新分配的对象，因此处理起来比较简单。

Texture,Buffer等资源是通过全局的渲染目标对象池创建的，这里的创建是基于名字查询的，如果已经存在于资源池，会返回原有的结果，而不会创建新的资源。

对于已经存在于对象池的资源，如果这个资源是常驻的，那么我们无需做过多处理。但如果资源是临时的，这就涉及到了资源的生命周期问题。

对象池创建的资源的生命周期原本应由对象池本身管理。如果RDG系统引用了这一资源，为了避免对象池在RDG仍然引用资源时将其销毁，资源的管理应该交由RDG来负责。

if (Texture->bTransient)
{
	// We will handle the discard behavior ourselves.
    PooledRenderTarget->bAutoDiscard = false;
    // ...
}

特别地，RDG主要处理有输入输出依赖的资源，比如Render Target。普通的美术纹理资产主要作为SRV使用，往往不存在复杂的依赖关系，因此可以不走RDG控制。

创建屏障

根据编译期间处理好的资源引用关系（记录在每个pass的TextureStates/BufferStates等结构中），对每个pass逐一创建资源屏障。

由于资源包含子资源的概念，因此创建资源屏障的时候，根据前后转换的资源状态组合，我们需要特别处理一对一，一对多，多对一和多对多四种情况。

执行pass

对于所有未被剔除的pass，我们逐一执行pass。

在设置pass的时候，我们同时设置了一个回调函数，在这一阶段，我们将真正执行原先设置的回调函数。

但在调用之前和之后，RDG框架还会执行一些额外的逻辑。

在调用前，RDG系统需要提交需要开始的资源屏障和需要结束的资源屏障，初始化Uniform buffer数据，对于异步计算或光栅化过程，标记开始渲染。

在调用后，RDG系统需要标记结束渲染，销毁临时资源，记录引用资源，提交图形管线和异步计算管线需要开始的资源屏障。

特别地，对于所有异步计算中的最后一个pass，它需要执行最终的Dispatch逻辑。

ue4中计算着色器应用

计算着色器支持我们在GPU端实现并行计算，它可以有非常多的应用。比如，自动曝光，屏幕空间环境光遮蔽，屏幕空间平面反射，Niagara等。

接下来，将会介绍一些ue4对计算着色器的应用。

自动曝光

当我们从暗处到亮处（或从亮处到暗处），人眼会有一个自适应的过程，具体表现为光的强度不是瞬间变化的，而是渐变的。

为了判断当前是否需要进行自动曝光，我们需要计算屏幕像素的平均亮度，由于这需要读取屏幕上的像素。直接读取屏幕上的像素效率较低，我们会先做多次降采样，在低分辨率的图像上计算平均亮度。但这样就会带来RT切换和带宽消耗。因此我们可以使用计算着色器，将屏幕划分为多个区域，每个区域作为一个工作组。我们把每个工作组的平均亮度计算完成后存储在共享内存中，再利用原子操作把结果汇总，在一个pass内完成计算。

相关的代码位于PostProcessMobile.usf中的AverageLuminance_MainCS中。

累加运算是一个可以高度并行化的计算，它的具体实现可以分为以下两个步骤：

首先，我们可以把屏幕空间分为多个Tile，并以Tile的长宽个数来建立计算着色器的线程组。然后，我们计算每个Tile中所有像素的累加。累加的结果记录在共享内存中。我们添加一个同步点，等所有线程计算完毕后，再进入下一步。

接下来，我们需要把每个Tile的结果继续累加。这可以通过额外一个计算着色器完成，但是为了避免RT切换带来的带宽消耗，我们更希望在原来的计算着色器上继续完成。这就需要我们把累加的任务分摊给每个线程，保证没有重复也没有遗漏。

我们可以使用一种类似于二分法的方法进行数据累加，分为多步完成，每步之间将设置同步点，对于包含n个线程组的累加计算，需要log2(n)个步骤完成。每一趟将有2的幂次个数的线程组处于工作状态，随着步数的增加，当前工作的线程组会越来越少。

以上方案的一个好处是它能够确保连续地访问内存，能够提高效率。

可以看到，第二步Tile累加的过程中，计算着色器负载并不均衡，因此这里依然有优化的空间。

屏幕空间平面反射

在屏幕空间平面反射中，我们使用计算着色器，根据反射平面，计算一个像素被反射后的位置。

在计算反射的时候，会遇到如下几个精度的问题：

① 一个像素反射后的位置不一定是一个准确的像素位置，而可能是一个覆盖了四个像素的位置。这个时候需要记录四个像素的颜色值。

② 多个像素可能会反射到同一个位置。这个时候我们需要在计算着色器中模拟深度测试，选择离最近的一个像素。

使用原子比较的InterlockedMin来实现，由于原子比较只支持int值，需要将比较的数据压缩到int数据。

void ProjectionBufferWrite(int2 BufferPos, uint BufferValue)
{
    int2 WriteOffset = BufferPos + ViewRectMin.xy;
    uint OriginalValue = 0;
    InterlockedMin(OutputProjection[WriteOffset], BufferValue, OriginalValue);
}

ue4中的移动端延迟渲染

ue4.26中实现了一个比较简单的移动端渲染框架。

Subpass

和传统的延迟渲染管线不一样，移动端的延迟管线的光照渲染部分在一个pass内完成，这个pass包含了三个模块，即物体的渲染和GBuffer写入，贴花的渲染和GBUffer写入，以及读取GBuffer进行光照计算和透明物体渲染。

也就是说，GBuffer的写入和读取都是在同一个pass内完成的。GBuffer作为中间数据，暂存在on-chip memory中，最终没有被输出到系统内存。因此我们认为GBuffer是Memoryless的，它可以有虚拟内存的标记，但不会实际分配系统内存。

为了避免PSO数量的增加，无论场景中是否存在贴花，我们总是保留第二个pass。

Device & Platform

Vulkan原生支持subpass，因此可以直接进行移动端延迟管线的开发。

Metal支持将attachment作为着色器输入，可利用这一特性实现移动端延迟管线，但Metal不支持Depth的读取，需要手动存储32位精度的场景深度。

OpenGL中，扩展Pixel Local Storage和Framebuffer fetch可以支持我们实现这一点。Android设备比较复杂，426暂时还没有应用。

	√	×
Pixel Local Storage	Mali, ImgTech PowerVR	Adreno
Framebuffer Fetch	Adreno	Mali(Only One Framebuffer)

GBuffer

SceneColor使用R11G11B10格式。

3个GBuffer附件，格式为RGBA8。存储材质数据。

SceneDepth，格式为R32F。

每个像素占用160bit(20字节）

Lighting

移动端针对光照渲染，做了如下几点优化：

① Shading model masking

使用模板缓冲记录Shading Model ID，可以对不同的ID运行不同的着色器，也可以跳过无光照的像素。

② Light Volume Culling

默认开启的优化，r.Mobile.UseLightStencilCulling = 1。

针对局部光，如聚光灯，只计算体积内的可见像素的光照。这是通过两个pass实现的。这会带来额外渲染调用和状态切换，但大多数情况下时有益的。

第一个pass，绘制体积正面，深度测试失败时写入模板。

第二个pass，绘制体积背面，反向深度测试以及模板测试，只绘制通过深度和模板测试的像素。

③ Clustered deferred Shading

默认关闭的优化，r.Mobile.UseClusteredDeferredShading = 0。

只有在局部光数量比较多（如大于100）时有比较好的优化效果。

在渲染前使用计算着色器生成每个Cluster引用的光源列表，可在一次绘制调用中应用所有局部光源的光照。

在未做优化的情况下，绘制次数与光源个数线性相关，重叠光源也会带来大量overdraw。

你可能感兴趣的:(引擎)

Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
InnoDB引擎行存储结构
InnoDB引擎行存储结构文章目录InnoDB引擎行存储结构1.存储引擎2.InnoDB页的概念3.InnoDB行格式3.1指定行格式3.2COMPACT格式3.3REDUNDANT行格式3.4溢出列3.5DYNAMIC行格式和COMPRESSED行格式1.存储引擎[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y7BY5kOU-1643188470321)(C:\U
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
UnrealEngine5游戏引擎实践（C++) KENYCHEN奉孝 C++服务器 c++游戏引擎
目录目录目录UnrealEngine是什么？UnrealEngine5简介核心技术特性应用场景扩展兼容性与生态系统UnrealEngine安装下载EpicGamesLauncher启动UnrealEngine选择安装版本和路径选择组件开始安装验证安装配置项目模板（可选）更新和插件管理UE游戏引擎动作捕捉与动画系统程序化生成与AI技术物理与破坏系统音频与本地化技术性能优化导入静态网格体材质实例创建与
NodeJS VM2沙箱逃逸漏洞分析【CVE-2023-29199】 R3s3arcm NodeJS漏洞分析 node.js 安全安全威胁分析
NodeJSVM2沙箱逃逸漏洞分析【CVE-2023-29199】简介Node.js是一个基于V8引擎的开源、跨平台的JavaScript运行环境，它可以在多个操作系统上运行，包括Windows、macOS和Linux等。Node.js提供了一个运行在服务器端的JavaScript环境，使得开发者可以编写并发的、高效的服务器端应用程序。Node.js使用事件驱动、非阻塞I/O模型来支持并发运行。它
在ARM46+KylinOS下安装配置Docker的详细步骤 Q_Daniooi docker 容器运维
目录一、安装前准备（一）环境检查（二）依赖准备二、Docker安装步骤（一）添加Docker官方源（以Debian分支银河麒麟为例，RPM系类似调整）（二）安装Docker引擎（三）启动与基础配置三、Docker优化配置（可选但推荐）（一）镜像加速（二）存储驱动优化四、注意事项（一）系统兼容性（二）网络与镜像源（三）权限与安全（四）ARM架构特殊点五、经常遇见的问题及解决方法六、学习经验分享一、前
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【Rust日报】使用Rust开发分布式系统的经验教训
Fjall-一个安全Rust的KV存储引擎Fjall是一个可嵌入的基于LSM的forbid-unsafeRust键值存储引擎。它的目标是成为一个可靠且可预测但性能优异的通用KV存储引擎，适用于小型数据集，尤其是大于内存大小的数据集。我刚刚发布了1.0版本，该版本稳定了其数据格式，适用于所有未来的1.x.x版本。它的设计受到了LevelDB/RocksDB架构的重大影响，并且通常具有相似的性能。它具
node.js、npm是什么？服务器脚本语言有哪些？
文章目录1.node和nodejs有区别吗:2.Node.js是什么3.NPM4.安装Node.js和npm5.使用appium之前为什么安装node.js？6.Vue.js一定要安装node.js吗？7.开发环境：1.node和nodejs有区别吗:node和nodejs之间没有区别，node全称就是nodejs。nodejs是一个基于ChromeV8引擎的JavaScript运行环境，一个让J
Cursor 使用教程：自定义AI规则引擎-贴合企业规范的代码生成程序员岳彬全栈开发人工智能开发语言 AI编程后端 java ai
文章目录一、引言二、CursorAI核心功能与入门实践2.1快速上手：生成基础代码结构2.2规则引擎配置：统一企业开发规范三、自定义规则引擎核心技术解析3.1领域特定语言（DSL）设计3.2MyBatis-PlusCRUD规则实现3.2.1实体类生成规则3.2.2Mapper接口生成规则3.3异常处理规则设计3.3.1全局异常处理器生成3.3.2业务异常重试规则四、企业级实践：MyBatis-Pl
Gemini CLI 文件发现引擎深度解析：从模式匹配到智能搜索的架构演进步子哥智能涌现架构人工智能
前言在现代AI开发工具中，如何快速、准确地找到相关文件是一个基础而又重要的能力。今天我们将深入解析GeminiCLI中的GlobTool类——一个看似简单的文件搜索工具，实际上却承载着复杂的模式匹配、智能排序、Git集成等多重职责，展现了如何将传统的文件搜索演进为AI时代的智能文件发现系统。GlobTool的设计哲学核心设计理念GlobTool的设计体现了智能化文件发现¹的核心理念。它不仅仅是一个
始终追赶技术潮流，YashanDB如何保持竞争力？数据库
在现代数据管理领域，优化查询速度是提高数据库性能和用户体验的关键问题。数据库的查询效率直接影响业务响应速度和系统吞吐量，进而决定了应用的竞争力。YashanDB通过先进的架构设计、丰富的存储引擎、多样化的部署模式及完善的事务和并发控制机制，持续解决查询优化等核心技术难题，确保其在激烈的数据库技术竞争中保持领先优势。多样化部署架构保障性能与可扩展性YashanDB支持单机（主备）、分布式集群和共享集
异步技术：Web 性能优化的核心引擎 weixin_47233946 编程前端性能优化
异步技术：Web性能优化的核心引擎引言：当「等待」成为性能瓶颈当用户访问一个传统同步加载的新闻门户网站时，主线程在解析到时突然停止渲染，页面停留在白屏状态长达2秒——这正是GoogleLighthouse性能检测中常见的"BlockingTime"警告。这种阻塞式加载方式正是现代Web性能优化需要解决的痛点。一、异步的本质与技术演进1.1从同步到异步的范式转换同步加载如同单行道依次通行的汽车，每个
自定义属性报价系统设计方案 buyue__ C++算法设计数据结构
一、系统架构设计1.核心模块划分属性配置引擎：支持无限级分类与继承机制，通过attr_forprice字段标识影响价格的属性动态定价模块：采用CPQ(配置-定价-报价)模式，内置差异化定价策略与审批流程产品建模中心：建立多层级SKU档案，支持材料/工艺等200+参数的自由组合2.数据库设计CREATETABLE`prod_class_attr`(`attr_forprice`tinyint(4)D
千亿级消息引擎 Apache Pulsar 深度剖析：架构原理、设计哲学与实战实践北漂老男人 Pulsar apache 架构学习方法运维
千亿级消息引擎ApachePulsar深度剖析：架构原理、设计哲学与实战实践Pulsar不止是消息队列，更是下一代云原生流平台。本文将深入剖析其底层架构、核心特性、关键差异、源码细节、调优技巧与企业级实践路径，力求做到“知其然，知其所以然”。一、架构哲学：分层解耦+IO隔离1.1三层架构模型（Broker+BookKeeper+ZooKeeper）Pulsar基于分布式系统经典设计范式：计算与存储
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
Flowable24服务任务脚本任务-----------持续更新中
服务任务（ServiceTask）服务任务是BPMN2.0规范中的核心元素之一，在Flowable工作流引擎中扮演着至关重要的角色。它代表了流程中一个由系统自动执行的步骤，用于与外部世界进行交互，而无需人工干预。可以把它理解为流程中的“机器人”，专门负责执行后台代码、调用外部服务或执行任何自动化任务。1.核心概念与用途是什么？服务任务是一个自动化的活动，当流程执行到该节点时，Flowable引擎会
Dify小白入门指南：通过官方文档学习工作流编排和API调用伟大无须多言学习 dify ai
Dify小白入门指南：通过官方文档学习工作流编排和API调用一、Dify平台简介与核心功能Dify是一个开源的LLM应用开发平台，被设计为一个"生成式AI应用创新引擎"，它提供了从Agent构建到AI工作流编排、RAG检索、模型管理等全方位能力，帮助用户轻松构建和运营生成式AI原生应用。作为一个强大的LLMOps平台，Dify已成为众多开发者构建AI应用的首选工具，尤其适合想要快速开发AI应用但缺
AI+低代码双引擎驱动：重构智能业务系统的产品逻辑
低代码与AI融合的架构重构将低代码技术深度融入产品体系，形成"可视化编排+AI增强"的双引擎架构，彻底重构传统业务系统的开发与交付模式。新架构在保留原有AI能力的基础上，通过低代码平台实现业务逻辑的可视化定义、参数配置的图形化操作和AI服务的拖拽式编排。重构后的产品逻辑全景图┌─────────────────────────────────────────────────────────────
聚合分销系统开发实战：覆盖短剧/小说/外卖/电商/网盘/APP拉新的CPS+CPA双模式技术架构解析 v_qutudy 聚合分销聚合cps+cpa app拉新项目
一、系统架构设计：微服务与中台化双引擎1.1分布式微服务架构采用SpringCloudAlibaba框架构建，将系统拆分为8大核心服务：mermaidgraphTDA[用户中心]-->B[订单服务]A-->C[结算服务]D[内容中台]-->E[短剧服务]D-->F[小说服务]G[生活服务]-->H[外卖接口]G-->I[电商接口]J[网盘服务]-->K[拉新模块]关键技术选型：注册中心：Nacos
ClamAV 和 FreshClam：Linux 服务器上的开源杀毒解决方案
ClamAV和FreshClam：Linux服务器上的开源杀毒解决方案1.概述ClamAV是一款开源的防病毒引擎，专为Linux服务器设计，用于检测恶意软件、病毒、木马和其他安全威胁。它广泛应用于邮件服务器、文件存储系统和Web服务器，提供高效的病毒扫描功能。主要特点：免费开源：可自由使用和修改，适合企业和个人用户。多平台支持：支持Linux、Windows和macOS（但主要用于Linux）。命
【FR801xH】富芮坤FR801xH之全功能按键案例沧海一笑-dj 物联网专栏富芮坤 FR801xH 按键单击双击长按超长按
00.目录文章目录00.目录01.FR801xH概述02.FR801xH功能框图03.Button模块概述04.Button模块核心设计思想05.Button模块系统架构概览06.Button模块数据结构详解07.状态机引擎解析08.定时器系统设计09.事件处理流程10.程序实现参考源码11.测试示例12.附录01.FR801xH概述FR801xH系列芯片是面向SOC（片上系统），易于快速开发的低
RapidRAW RAW 图像编辑器罗光记百度数据库 facebook segmentfault 经验分享
RapidRAW是一款现代化的高性能AdobeLightroom替代品。它体积轻巧（不足30MB），适用于Windows、macOS和Linux，提供功能丰富、美观的编辑体验。一款美观、无损且GPU加速的RAW图像编辑器，在构建时充分考虑了性能。主要特点核心编辑引擎GPU加速处理：所有图像调整均使用自定义WGSL着色器在GPU上处理，以获得快速反馈。蒙版：利用AI主体和前景检测功能，即时创建精准蒙
Chromium 引擎启用 Skia Graphite后性能飙升罗光记百度 facebook 数据库经验分享 oneapi
在一项被许多开发者关注的性能优化进展中，Chromium项目正逐步将其图形渲染后台从经典的Ganesh迁移至Skia新一代图形后端Graphite，而最新测试结果显示，这一举措带来了显著的性能提升。Skia是谷歌主导的跨平台2D图形库，长期以来一直是Chromium浏览器的核心组成部分。Ganesh是Skia的传统渲染后端，而Graphite是为现代GPU和图形API（如Vulkan和Metal）
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地