天堂里的死神

Tabula Rasa中的延迟着色技术

Deferred Shading，看过《Gems2》的应该都了解了。无论是Unreal3、Crysis还是星际2，都已经支持或者准备支持这个技术。

不过因为国内这种环境，真正在项目中能用到的可能并不多，不知道这次星际2出来后，情况会不会有所变化。^_^

本文是对Gems2这篇文章的一个补充，小生在做此次外包的时候，由于需要，翻译了这篇文章，不敢独享，遂贴于此，望能抛砖引玉，愿众位前辈不吝赐教。 ^_^

Tabula Rasa中的延迟着色技术

作者:Rusty Koonce （NCSoft）

翻译:noslopforever（天堂里的死神）

本翻译仅用于学术目的。

这篇文章是对GEMS2里《Deferred Shading in S.T.A.L.K.E.R.》（中文译名《S.T.A.L.K.E.R.中的延期着色》，原作者Oles Shishkovtsov）的一个补充。它是在我们耗时两年时间、为游戏Tabula Rasa（Richard Garriott担纲的MMORPG）完成的渲染引擎的基础上形成的。GEMS2的这篇文章覆盖了实现一个Deferred Shading引擎的基本原理，而我们将重点放在了基于Deferred Shading引擎的工作中时可能遇到的更高层面的问题、技术和解决方案上。

1 Introduction

在计算机图形学的词典里，Shading表示“对受光物体的渲染”，这个渲染过程包括下面几步：

1，计算几何多边形（也就是Mesh）。

2，决定表面材质特性，例如法线、双向反射分布函数（bidirectional reflectance distribution function，BRDF）等等。

3，计算入射光照。

4，计算光照对表面的影响，并最终显示。

一般渲染引擎，渲染场景中的物体的时候，是将这四步一次执行完的。延迟着色则将前两步和后两步分开到渲染管道相互独立的两个部分来执行。

我们希望读者在阅读本文前，能先了解一下延迟着色的基本原理。以下的文章都不错，可以读读：Shishkovtsov 2005，Policarpo and Fonseca 2005，Hargreaves and Harris 2004。

在本文中：Forward Shading（前向渲染）是指4个步骤一齐处理的传统着色方法。Effect就是Direct3D的D3DX Effect，而Technique，Annotation和Pass，与它们在D3DX中的概念一样。

材质着色（Material Shader）是指用来渲染几何图元的Effect（也就是前两步），光着色则是指用来渲染可见光源的Effect。几何体（Body）用来指代那些需要渲染的物体。

在这里我们忽略了显卡相关的优化或实现，所有的解决方案都是普遍适应于SM2和SM3硬件的。我们希望能强调这个技术，而非实现。

2 Some Background

在Tabula Rasa中，我们一开始的渲染引擎是基于最初的DX9而完成的传统前向渲染技术的，使用了HLSL和D3DX Effect。我们的Effect使用了Pass里的Annotation来描述这个Pass所支持的光照。而在CPU这边，引擎可以算出来每个几何体被那些光源所影响——这个信息连同那些在Pass的Annotation里的信息一起，用于设置光源的参数、以及确定每个Pass该调用多少次。

这种前向着色有多种问题：

1，计算每个几何体受那些光影响耗费了CPU的时间，更坏的是，这是个O(n*m)的操作。

2， Shader经常需要超过一次以上的Pass来渲染光照，渲染n个灯光，对于复杂的Shader，可能需要O(n)次运算。

3，增加新的光照模型和新的光源类型，可能需要改变所有Effect的源文件。

4， Shader很快就将达到或者超出SM2的指令限制。

在MMO里，我们对游戏环境很少会有过于苛求的要求。我们无法控制同屏可见的玩家数量、无法控制同屏会有多少特效和光源。由于传统前向渲染缺乏对环境的控制，且对于光源的复杂度难于估量，因此我们选择了延期着色。这可以让我们的画面更接近于当今顶尖的游戏引擎，并且让光照所耗费的资源独立于场景的几何复杂度。

延期着色提供了下面的好处：

1，光照所耗费的资源独立于场景复杂度，这样就不用再费尽心机去想着处理那些光源影响几何体了。

2，不必要再为几何体的受光提供附加的Pass了，这样就节省了Draw Call和状态切换的数量。

3，在增加新的光源类型和光照模型时，材质的Shader不需要做出任何改变。

4，材质Shader不产生光照，这样就节省了计算额外的几何体的指令数。

延期着色需要显卡提供MRT的支持，且利用了不断增加的存储器的带宽——这也就意味着我们可能得对玩家所使用的硬件提出更高的要求。因此我们既实现了前向着色，也实现了延期着色。我们优化了前向着色管道，并在此基础上完成了延期着色管道。

有了一个完全基于前向着色的系统作为后盾，我们就可以以更高的硬件标准来完成延期渲染系统了。我们使用了SM2的显卡作为前向着色系统的最低配置，而延期着色系统，则需要支持SM3的显卡。这样就更易于开发一个延期渲染管道，因为我们不必要再顾虑指令数的限制，且能使用动态分支语句。

3前向着色支持

即便是工作在延期着色引擎下，对于半透明物体的渲染依旧需要前向渲染管道的支撑（详见本文第8节）。我们的引擎里保留了对整个前向着色管道的支持，这个管道用来处理半透明物体，以及用于在低端显卡上替代延期着色引擎。

本节讲述了我们是通过什么方法来同时支持前向和延期渲染的。

3.1 受限的特性

我们限制了前向渲染管道的特性，只让它实现延期渲染管道所有特性的一个很小的子集。有些特性因为技术上的原因无法支持，有些是因为工期太紧，但更多的，是为了开发起来方便而被我们丢弃掉了。

我们的前向渲染管道支持球状光源（hemispheric），方向光源和点光源，其中点光源是可选的，其他的所有类型光源都不支持（包括Spot Light，Box Light，它们只由延期着色管道来支持）。在延期渲染管道里构建的阴影和其他特性，在前向渲染管道中都不支持。

最后，前向渲染中的Shader是可以做逐顶点光照和逐像素光照的。在延期渲染管道中，所有的光都是逐像素的。

3.2 一个Effect，多个Technique

我们使用了在Effect中使用了不同的Technique来完成前向着色、延迟着色和Shadow Map，以及更多的东西。我们对每个Technique指定了Annotation来标明这个Technique使用了什么样的渲染方式。这就允许我们将所有的Shader代码放到一个统一的Effect文件里，来实现渲染引擎所需的所有Shader（见表19-1）。这包括前向着色中的静态和骨骼模型，延期着色使用到的“材质着色”（Material Shading）的静态和骨骼模型，以及Shadow Map。

把Effect所能用道德所有的Shader放到一个地方，我们就可以尽可能多地共享一些可以跨越不同渲染技术的代码。当然，我们不会去做一个超长的文件来储存这些代码，而是将这些Shader建立了一个由多个文件组成的Shader库，包含了各个Effect都能用到的共享的顶点和像素代码，以及常用的函数。这减少了Shader代码的复制，使得维护变得容易，减少了Bug，以及增强了各个Shader之间的稳定性（consistency）。

表19-1：材质示例

Code View:

// These are defined in a common header, or definitions

// can be passed in to the effect compiler.

#define RM_FORWARD 1

#define RM_DEFERRED 2

#define TM_STATIC 1

#define TM_SKINNED 2

// Various techniques are defined, each using annotations to describe

// the render mode and the transform mode supported by the technique.

technique ExampleForwardStatic

  int render_mode = RM_FORWARD;

  int transform_mode = TM_STATIC;

{ . . . }

technique ExampleForwardSkinned

  int render_mode = RM_FORWARD;

  int transform_mode = TM_SKINNED;

{ . . . }

technique ExampleDeferredStatic

  int render_mode = RM_DEFERRED;

  int transform_mode = TM_STATIC;

{ . . . }

technique ExampleDeferredSkinned

  int render_mode = RM_DEFERRED;

  int transform_mode = TM_SKINNED;

{ . . . }

3.3 光照优先级

我们的前向渲染在对一个集合体使用多个光源时，很容易就需要增加额外的Pass了。增加Pass不仅会产生更多的Draw Call，也会造成更多的状态切换和更多重绘（原文是Overdraw，我感觉这里可能想表达重绘的意思）。我们发现在有很多光源的情况下，我们的前向渲染只绘制一小部分光源，就会比延期渲染慢。因此，为了更好的性能，我们严格限制了前向渲染管道里，对一个集合体受光的最大数量。

延期渲染管道每帧可以处理30个、40个、50个、甚至更多的动态光源，它们消耗的资源与几何体的数量，大小，以及受光程度毫无关系。然而，在前向渲染管道中，当有两个光源影响了一大坨几何体时，瞬间就卡了。由于两个渲染管道存在如此显著的性能差别，使用相同数量的光源几乎是不可能的。

我们为美术和策划提供了对光源优先级的编辑操作，提供了光源用于前向渲染、还是用于延期渲染、还是都用的开关。光源的优先级在两个管道中都有作用——当心能不足的时候，我们可以知道该关哪些光源；在延期渲染中，为了性能、质量设置，光源可能需要依据优先级关掉因它产生的阴影。

地图通常是按照延期渲染管道进行打光的。我们提供了一个很快的Pass来确认光源在前向渲染管道中是否是可接受的。一般地，在前向渲染管道下唯一的一个额外工作是增加Ambient Light的数量，来补偿相对于延期渲染管道少得多的灯光。

4 高级光照特性

下面的这些技术在前向和延期渲染引擎中都有可能实现。在我们的延期渲染管道中，我们支持了所有这些技术。即便我们不用延期渲染，这些技术仍然可以使用（Even though deferred shading is not required, it made implementation much cleaner.）。在延期渲染中，我们将这些特性的实现与材质Shader分离开，这样我们就可以增加新的光照模型和光源类型，而不必要修改材质属性。这就正如我们可以添加新的、独立于光照模型和光源类型材质。

4.1 Bidirectional Lighting各向异性光照

传统的球面光照（hemispheric lighting），正如DX文档里所说的那样，太普通了。这种光照模型使用了两个颜色，一般标记为Top和Bottom，然后基于表面法线对这两个颜色进行线性插值。标准的球面光照，根据表面法线方向朝正上方和正下方（这也就是为什么叫Top和Bottom），来对颜色进行插值。在Tabula Rasa中，我们支持了这种传统的球面光照，但我们也为方向光源提供了背部颜色（Back Color）。

在延期渲染中，美术可以很简单地增加多盏方向光源。我们发现他们经常使用一盏与另一盏光源恰巧相反的光源来模拟辐射度。他们很喜欢这种方法的结果，因此一个自然而然的优化就是：将这两个光源统一成一个特殊的方向光源——一个正面颜色和一个背部颜色。这给了他们相同的控制，但少了一半工作量。

对于之后的优化，背部颜色只是一个N·L的运算，或者一个简单的朗伯（Lambertian）光照模型。我们不必要为背部实现Specular，阴影，遮挡，以及更多高级光照技术。这些背部颜色只是对整个场景环境光和辐射度一个简单的近似。我们将正面颜色的N·L存了下来，将它的方向取反以用到背部颜色的计算上。

4.2 Globe Mapping

Globe Map是用来对光照添加颜色的，就像我们生活中的玻璃球（溜溜弹）那样。光线从光源发射出来，穿过玻璃球，然后被玻璃球赋予颜色和遮挡。对于点光源，我们使用一个Cube Map来完成这个功能，而对于聚光灯，我们使用2D纹理。这可以用于高效地模拟彩色玻璃的效果，或者通过一个模板来对光线进行遮挡。我们也为美术提供了旋转和让这些Globe Map动起来的效果。

可能的话，美术可以使用Globe Map来高效模拟Shadow Map，模拟彩色玻璃，迪斯科球（就是一般舞厅里那个旋转的，闪着暧昧和刺眼光芒的球球），以及更多。我们引擎里所有的光源都支持这些。请参考图19-1 和19-3。

图19-1：基本的聚光灯

图19-2：简单的Globe Map。

图19-3：融合了Globe Map的聚光灯。

4.3 Box Lights

在Tabula Rasa中，方向光是影响整个场景的全局光，且用于模拟太阳光和月亮光。我们发现，美术有时候想用方向光影响一小块区域，而不是整个个场景。

我们的解决方案是Box Light。这些光也是方向光，但他们只在一个长方体中起作用。在这个长方体中，我们可以支持类如聚光灯那样的衰减，这样，他们的强度就会随着距离边界越近而衰减得越厉害。Box Light也支持Shadow Map，Globe Map，背面颜色，以及所有其他被我们引擎支持的光源特性。

4.4 Shadow Maps

在Tabula Rasa中，没有预计算的光照。我们只用到了Shadow Map，而没有使用Stencil Shadow和Light Map。美术们可以让任何光源产生阴影（除了球面光照外）。对于Point Light，我们使用了Cube Map来产生Shadow Map，其它的情况下，我们都使用了2D纹理。

Tabula Rasa中的所有Shadow Map都使用了浮点纹理，且使用了抖动采样（Jitter Sampling）来进行柔化。美术可以控制抖动的幅度，以控制软阴影“软”的程度。这个方法允许我们用一个固定的方法，在所有的硬件上实现相同的效果，当然，对于Shadow Map，我们肯定是要使用硬件相关的纹理格式的。硬件相关的纹理格式可以提供诸如更好的精度，更好的硬件过滤。

Global Shadow Maps

很多论文讨论了全局阴影图，或者由一盏方向光的平截台体所产生的单独的阴影图。我们花了两个星期的时间来研究透视阴影图（Perspective shadow Maps）[Stamminger and Drettakis 2002]和梯形阴影图（trapezoidal shadow maps）[Martin and Tan 2004]。这两个方法最大的问题是最后的结果取决于光源方向和眼睛方向。只要摄像机一变化，阴影的质量就会发生改变，最坏的情况下，变成了标准的正交投影。

Tabula Rasa里面是有白天和夜晚的循环的，太阳和月亮持续的在天上划过。在黄昏和拂晓的时候，光源方向与水平面几乎平行，这就增加了摄像机方向与光源方向平行的几率。这是前述两种方法面对的最糟糕的情况。

由于摄像机和光源方向不断移动，阴影质量变得很难把控，我们最终（end up，这里不知道作者是想说最终，还是说不再）使用一张大的2048 X 2048的Shadow Map进行正交投影。这使得最后的结果很统一，而且与光源和摄像机的夹角无关。当然，肯定会有比我们这种方法好得多的方法，例如Cascaded Shadow Map。

我们使用了抖动采样来柔滑阴影边缘，我们对光源的位移进行了离散化，因此他总是指向Shadow Map中固定的位置，我们也对光源的方向离散化了，这样Shadow Map计算时的值不需要每帧都发生变化。最终的结果是，我们获得了一个稳定的阴影，无论摄像机如何移动。

请看表19-2。

表19-2 离散化光源位置以计算Shadow Map投影矩阵。

Code View:

// Assumes a square shadow map and square shadow view volume.

// Compute how "wide" a pixel in the shadow map is in world space.

const float pixelSize = viewSize / shadowMapWidth;

// How much has our light position changed since last frame?

vector3 delta(lightPos - lastLightPos);

// Project the delta onto the basis vectors of the light matrix.

float xProj = dot(delta, lightRight);

float yProj = dot(delta, lightUp);

float zProj = dot(delta, lightDir);

// Quantize the projection to the nearest integral value.

// (How many "pixels" across and up has the light moved?)

const int numStepsX = static_cast(xProj / pixelSize);

const int numStepsY = static_cast(yProj / pixelSize);

// Go ahead and quantize "z" or the light direction.

// This value affects the depth components going into the shadowmap.

// This will stabilize the shadow depth values and minimize

// shadow bias aliasing.

const float zQuantization = 0.5f;

const int numStepsZ = static_cast(zProj / zQuantization);

// Compute the new light position that retains the same subpixel

// location as the last light position.

lightPos = lastLightPos + (pixelSize * numStepsX) * lgtRight +

                          (pixelSize * numStepsY) * lgtUp +

                          (zQuantization * numStepsZ) * lgtDir;

Local Shadow Maps

在我们的引擎中，所有光源都可能产生阴影，而整个地图有上百盏灯。引擎必须提供管理和使用Shadow Map的方法。所有的Shadow Map知道他们需要时才会被创建出来，并且，大多数Shadow Map是静态的，不需要每帧都重新创建。我们为美术提供了控制每个产影灯是使用静态Shadow Map还是动态的Shadow Map。静态的Shadow Map只生成一次，之后就一直使用，而动态的则每帧都会被刷新。

我们同样标定了几何体是静态的还是动态的，也就是运行时是否可动。我们可以根据这个标志来在计算中裁减掉部分几何体。当创建静态Shadow Map时，我们排除了动态几何体部分。这可以防止类如Avatar这样的动态物体产生的动态影“getting ‘baked‘ into a static shadow map”（这句话不是特别明白，可能想表达的意思就是，静态Shadow Map产生时仅考虑静态物体，而不考虑场景中当前的动态物体吧？这不废话么？！拍静态物体的Shadow Map当然不应该考虑动态物体了，要不干嘛弄这一套静态Shadow Map？！）。动态物体如同其它静态物体那样，使用静态Shadow Map来对自己打影。例如，沿着楼梯走的Avatar，将会被楼梯投到他身上的影子所影响。（个人感觉这里作者可能想表述的就是他们把静态物体和动态物体的产影分开了，互相独立，不过业界的应该都是这么做的吧？需要这么特别说明一下么？搞不明白！当然，也可能使我理解错了，欢迎大家批评指正！）

这里有很多种自动化和优化的方法。我们并不一开始就生成所有的静态Shadow Map，而是在需要用到的时候再去创建。这就意味着我们并不需要发布这些Shadow Map文件，且减少了Loading时和运行时从磁盘读取数据的数量。为了节省显存和节省纹理创建的开销，我们使用了Shadow Map池。关于这些本文后面会有更多地描述。

动态产影光源是最耗费的，他们需要常时重新生成他们的Shadow Map。如果动态产影光源不移动，或者移动得不那么剧烈，则就有一些方法可以提升一些性能了。最简单的是，除非有动态几何体在光源的影响范围内，否则就不要重新生成这些Shadow Map。另一个选择是将静态模型渲到各自独立的静态Shadow Map上，这样这些Shadow Map就只用创建一次了。每帧都需要将动态物体渲染到独立的动态Shadow Map上，在最后，只需要判断两个Shadow Map中最小的，或者最近的值就可以了。最后的结果就类似于整个场景的所有物体都产生了Shadow Map——其实我们生成的只有动态物体。

4.5 将来的扩展

由于基于延期着色的引擎已经将光照和几何渲染完全分开，因此我们就可以很方便的修改或增加光照的特性了。事实上，前面说的Box Light，从会议上的提议到最后编辑器里的完整功能，我们只花了三天时间。

HDR，Bloom，以及其它特效，添加到延期渲染引擎里、与添加到传统渲染引擎的难度相当。延期渲染引擎的架构，使得他更易于扩展。一般的，在延期渲染引擎里增加一个特性，比在前向渲染引擎里增加一个特性显得简单，或者起码不会难太多。限制延期渲染引擎特性的最大问题是能添加到每个象素中的材质属性，可用的显存，以及显存带宽。

5 可读的Depth和Normal Buffer的优势

延期着色的一个前提是，需要创建储存深度和法线信息的纹理。这些信息将被用到光照计算中。然而，他们也可以超越光照的范畴，用于计算雾，深度Blur（应该是指DOF），体积粒子，以及消除半透明物体穿入不透明物体时的硬边。

5.1 高级水和折射

在Tabula Rasa的延期渲染中，我们的水面Shader充分考虑了水的深度信息（视空间下）。当水的被渲染时，我们将拿它的每个象素和我们延期着色中已有的深度进行比较。这就使我们的水面可以具备自动的海岸线，而且，水可以根据视空间的深度来改变颜色和半透明，同时，在水下的物体可以做折射，而水上的物体则不用。我们可以在一个Pass里面做完所有这些工作，而不像传统渲染引擎那样。（译者：但是，我个人认为，这种海岸线的效果真得不怎么样……！除了过度柔和的边缘之外，对于海浪之类的模拟较差。相比而言，还是Crysis、FarCry这类引擎的海面做得好啊）

我们的前向渲染引擎只支持基本的折射特性，它需要一条独立的Pass来初始化折射纹理的Alpha信息，以分辨那些在水面之上的部分，这些部分不能计算折射。[Sousa 2005]给出了这个算法。

在我们的延期渲染引擎中，我们可以采样到当前像素的视空间深度和被折射像素的视空间深度。通过比较这两个深度，我们可以知道究竟被折射像素是高于水面还是低于水面，低于水面的，发生折射，高于水面的，就不再处理了。见图19-4和19-5。

图19-4 前向渲染的水。

折射只在低于水面的地方产生，这里没有可访问的深度信息，只能用多个Pass来处理，不能用视空间深度。

图19-5 使用了前向渲染，但通过延期渲染的Depth Buffer来获取深度。

注意颜色和半透明随着视空间深度变化而变化，没有了水体的硬边，只需要一个Pass。

为了方便美术控制随深度变化的颜色和透明度，我们提供了一个Volume纹理，而非一个1维纹理。1维纹理只是一个从归一化的深度查询到透明度的速查表。而Volume纹理则允许美术模拟水深对半透明的非线性的变化。Volume纹理也用于影响水面的颜色。这可以使一个平板Volume纹理（也就是一张标准的2D纹理），也可以是有2或者4个W分量的Volume纹理。归一化的深度用于对W进行采样，UV则由美术来指定。水面的表面法线有两个相互独立的、UV动画的发现图构成。

5.2 分辨率无关的边缘检测

[Shishkovtsov 2005]（GEMS2里的那篇文章）提出了一个边缘检测方法，用于在帧缓存上模拟反锯齿。这种方法需要一些与分辨率相关的魔数。我们也需要反锯齿，我们修改了一下这个方法，使之可以与分辨率无关。

我们对一个像素邻近的8个像素，进行深度梯度和法线角度的采样，这一点是与Gems2一致的。我们在这个点上判断深度上最大的和最小的变动，来确定边缘有多强。像素之间深度的梯度是与分辨率无关的。通过比较梯度变化率之间的关系，而不是梯度，就可以做到分辨率无关了。

我们的法线处理类似于GEMS2的方法。我们比较了中央像素和其周围、沿与我们检测梯度相同的边缘、的像素角度的余弦的变化（译者：我也没弄明白啥意思，具体就看代码吧……）。这里我们使用了我们自己的常数。无论如何，法线的变化率也是分辨率无关的，这就达到了我们的要求。

在这个算法中，我们没有做对“右上”或“前”边缘的选择的限制，因此很多边缘会有两个像素宽，不过，当使用了Filter来平滑这些边缘后，看起来也不错。

边缘检测的结果是生成了逐像素的边缘权重，这个值在0~1之间。这个权重反映了会有多少像素在它上面。在最后的渲染前，我们会把这个权重进行四个Bilinear采样。这四个采样是中心像素权重0，四周权重为1的采样。这样的结果就是目标像素的权重是它8个邻居权重的平均值。像素越是一个边缘像素，就会越多与它的邻居混合。请参考表19-3。

表19-3：边缘检测的Shader代码。

Code View:

// Neighbor offset table

const static float2 offsets[9] = {

  float2( 0.0,  0.0), //Center       0

  float2(-1.0, -1.0), //Top Left     1

  float2( 0.0, -1.0), //Top          2

  float2( 1.0, -1.0), //Top Right    3

  float2( 1.0,  0.0), //Right        4

  float2( 1.0,  1.0), //Bottom Right 5

  float2( 0.0,  1.0), //Bottom       6

  float2(-1.0,  1.0), //Bottom Left  7

  float2(-1.0,  0.0)  //Left         8

};

float DL_GetEdgeWeight(in float2 screenPos)

  float Depth[9];

  float3 Normal[9];

  //Retrieve normal and depth data for all neighbors.

  for (int i=0; i<9; ++i)

    float2 uv = screenPos + offsets[i] * PixelSize;

    Depth[i] = DL_GetDepth(uv);  //Retrieves depth from MRTs

    Normal[i]= DL_GetNormal(uv); //Retrieves normal from MRTs

  //Compute Deltas in Depth.

  float4 Deltas1;

  float4 Deltas2;

  Deltas1.x = Depth[1];

  Deltas1.y = Depth[2];

  Deltas1.z = Depth[3];

  Deltas1.w = Depth[4];

  Deltas2.x = Depth[5];

  Deltas2.y = Depth[6];

  Deltas2.z = Depth[7];

  Deltas2.w = Depth[8];

  //Compute absolute gradients from center.

  Deltas1 = abs(Deltas1 - Depth[0]);

  Deltas2 = abs(Depth[0] - Deltas2);

  //Find min and max gradient, ensuring min != 0

  float4 maxDeltas = max(Deltas1, Deltas2);

  float4 minDeltas = max(min(Deltas1, Deltas2), 0.00001);

  // Compare change in gradients, flagging ones that change

  // significantly.

  // How severe the change must be to get flagged is a function of the

  // minimum gradient. It is not resolution dependent. The constant

  // number here would change based on how the depth values are stored

  // and how sensitive the edge detection should be.

  float4 depthResults = step(minDeltas * 25.0, maxDeltas);

  //Compute change in the cosine of the angle between normals.

  Deltas1.x = dot(Normal[1], Normal[0]);

  Deltas1.y = dot(Normal[2], Normal[0]);

  Deltas1.z = dot(Normal[3], Normal[0]);

  Deltas1.w = dot(Normal[4], Normal[0]);

  Deltas2.x = dot(Normal[5], Normal[0]);

  Deltas2.y = dot(Normal[6], Normal[0]);

  Deltas2.z = dot(Normal[7], Normal[0]);

  Deltas2.w = dot(Normal[8], Normal[0]);

  Deltas1 = abs(Deltas1 - Deltas2);

  // Compare change in the cosine of the angles, flagging changes

  // above some constant threshold. The cosine of the angle is not a

  // linear function of the angle, so to have the flagging be

  // independent of the angles involved, an arccos function would be

  // required.

  float4 normalResults = step(0.4, Deltas1);

  normalResults = max(normalResults, depthResults);

  return (normalResults.x + normalResults.y +

          normalResults.z + normalResults.w) * 0.25;

6 警告

6.1 材质属性

小心选择属性

Tabula Rasa的延期渲染瞄准的是DX9 平台，SM3的硬件环境。这个阶段的配置有大量的用户群，然而同时，DX10和SM4可以减少许多限制。首要的一点是，SM3最多只支持4个Render Target，且不支持独立的Render Target位深度（也就是，4个RT必须具备同样的Bit数，如果你一个用的是R8G8B8A8，32bit，那么另一个你就不能用FP16，只能用FP32，因为FP16是16Bit的，而FP32是32Bit的）。这就限制了我们可以使用的、用于储存材质信息的数据通道数量。

一般的4个DX9 32Bit MRT纹理，除了深度缓冲（指DX本身的DepthStencil）之外，剩下还有13个数据通道来储存属性信息：3个4通道的RGBA纹理，和一个32Bit的高精度深度纹理。即便我们使用的是64Bit，而非32Bit，除了能提供更高的精度外，其实并不能增加数据通道的数量。

即便所有的数据通道都是按照顺序来储存信息的，但在SM3下，所有对数据的访问都通过浮点寄存器。这就意味着使用Bit Mask或者类似手段来做压缩或者将更多信息存储到一个通道里是不切实际的。到了SM4，才支持真正的整数运算。

必须指出的是，这些通道里存储的信息，直接决定了引擎能支持怎样的光源类型。我们只能尽可能避免存储某一个具体光源类型独特的数据。在通道受限的情况下，每个通道都必须最大程度地利用来存储那些最重要的数据。

这里有一些辅助压缩或者减少通道使用量的方法。存储视矩阵的法线时，可以存储在两个Channel里，而不是三个。在视矩阵里，法线的Z分量只可能具有统一的符号（正负号），因为所有可视的像素都面对摄像机。利用这个信息，同时，利用所有的法线都是单位向量，我们可以通过XY分量构建出Z分量来。另一个方法，是把材质属性存储到一个纹理速查表中，然后把必要的纹理坐标（也就是这个速查表的索引）存储到MRT的数据通道里。

这些材质的属性，就是维系材质和光源之间的胶水。它们是材质Shader的输出，同时是光照Shader的输入。

同时，他们也是材质和光照之间唯一的关联。这样，改变材质的属性数据（应该是指改变数据通道的组织，服了这为大哥了……到处写这种语焉不详模棱两可的话，官腔！……改变个数据至于要修改所有Shader吗？那你延期渲染的优势还能体现到哪里呢？！），同时必然需要改变所有的Shader，包括材质和光照。

封装和隐藏MRT数据

我们并不直接把材质属性的数据通道或者数据格式暴露给光照Shader，而是通过一些函数来设置和获取这些信息（拜托，求你了，大哥，我们懂基本的封装，你不是写给小学生看的，OK？！快说重点！）。这样，数据的位置和格式就可以随意改变，而材质和光源则只需要重新编译，而不必修改。

我们也提供了一个在材质里专门初始化所有MRT数据的Shader。这可能增加了不必要的指令开销，但为我们未来扩展新的数据通道提供了便利，也不必要再去修改已经存在的材质Shader了。材质Shader只有在默认值需要发生改变时，才会去修改。请见表19-4：

表19-4：封装和隐藏MRT数据

Code View:

// Put all of the material attribute layout information in its own

// header file and include this header from material and light

// shaders. Provide accessor and mutator functions for each

// material attribute and use those functions exclusively for

// accessing the material attribute data in the MRTs.

// Deferred lighting material shader output

struct DL_PixelOutput

  float4 mrt_0 : COLOR0;

  float4 mrt_1 : COLOR1;

  float4 mrt_2 : COLOR2;

  float4 mrt_3 : COLOR3;

};

// Function to initialize material output to default values

void DL_Reset(out DL_PixelOutput frag)

  // Set all material attributes to suitable default values

  frag.mrt_0 = 0;

  frag.mrt_1 = 0;

  frag.mrt_2 = 0;

  frag.mrt_3 = 0;

// Mutator/Accessor – Any data conversion/compression should be done

// here to keep it and the exact storage specifics abstracted and

// hidden from shaders

void DL_SetDiffuse(inout DL_PixelOutput frag, in float3 diffuse)

  frag.mrt_0.rgb = diffuse;

float3 DL_GetDiffuse(in float2 coord)

  return tex2D(MRT_Sampler_0, coord).rgb;

. . .

// Example material shader

DL_PixelOutput psProgram(INPUT input)

  DL_PixelOutput output;

  // Initialize output with default values

  DL_Reset(output);

  // Override default values with properties

  // specific to this shader.

  DL_SetDiffuse(output, input.diffuse);

  DL_SetDepth(output, input.pos);

  DL_SetNormal(output, input.normal);

  return output;

6.2 精度

延期着色很容易由于丧失了数据的精度而引发问题。最明显的丢失，是由于材质数据被存储到了MRT数据通道里。在Tabula Rasa中，绝大多数数据通道是8Bit或者16Bit的，取决于我们使用了32Bit的Render Target还是64Bit的（一个Render Target有4通道这一点并没有改变）。硬件内部的寄存器与Render Target的内部格式精度并不一致，再读和写的时候均需要数据的转换。例如：我们的法线分量是通过硬件最高精度的运算得出的，但却要被存储到8Bit或者16Bit精度的通道里。在8Bit的情况下，高光看起来很不平滑，而且还会有破碎的情况出现。

7 优化

在延期着色下，光照系统的性能直接取决于光源需要处理的像素的数量。我们用了下面的技术来减少光照需要计算的象素数量，以提升性能。

早期Z剔除（Early z-rejection），模板缓冲，以及动态分支，它们具备相同的特征：取决于数据的位置。这需要硬件体系结构的支持，不过现在绝大多数硬件都支持了。一般的，如果我们尽可能地使用了早期Z剔除，模板缓冲和动态分支，那么在屏幕上的一个局部区域内，所有的像素的行为都是均匀的。也就是说，他们都经过了Z剔除，模板，或者走入了同一个分支中。

7.1 有效的Light Volume

我们使用了紧密包围着光源影响区域的Light Volume来计算光照。理论上说，如果我们对整个屏幕所有的像素全都用光照计算，那么最后的结果也是一样的，但是，性能就会变得很差（每个灯光对整个GBuffer进行一次全采样，OMG……）。Light Volume覆盖的屏幕空间的像素越少，光照Pixel Shader需要处理的数据就越少。我们适用锥体来描述聚光灯，球体来描述点光源，长方体来描述Box Light，而对于方向光这样的全局光照，我们适用了整个屏幕空间。

另一个延期渲染的论文都会描述的方法，是通过基于Light Volume和摄像机位置的深度测试和Cull Mode（顺时针逆时针那个），来减少计算量。这种调整最大程度的进行了早期Z剔除。这种方法需要CPU来判断用哪种深度测试和Cull Mode的组合可以最大程度的进行早期Z剔除。

在我们所有的情况下（我们的Light Volume不会被远面剔除掉），我们都使用“Greater”的深度测试和顺时针的绕法（也就是反着绕）。可以通过一些推测，来选出对自己最有效的深度测试和Cull Mode。然而我们遇到的瓶颈在其他地方，因此我们决定不再用这种方法，通过浪费CPU资源来优化性能。

（感觉本段的技术并无实用性，剔除肯定是必须做的，硬件Occlusion，其他的，各种方法其实都很简单，而且实用性较强。不过也有可能是我没理解了作者的意思。）

7.2 模板缓冲

在延期渲染系统中，使用Stencil来屏蔽一些像素，是另一个常用的手段。基本上，就是用Stencil Buffer来指定哪些像素不必要进行光照。当渲染Light Volume的几何体时，可以通过简单的模板测试来取消对这些标定像素的处理。

我们试了一些这个技术的变种。我们发现这个方法所带来的性能提升，还不如增加了Draw Call导致的性能下降。我们试图使用一个“便宜的”Pass来标定所有的像素是否面向光源或者是否在光源之外。这个确实是减少了需要处理光源的像素的数量。在DX9 一般的下，“便宜的”Pass增加的Draw Call抵消掉、甚至远超过了最后光源Pass时提升的性能。

我们利用了Stencil来标定那些之后延期渲染需要处理的场景中的不透明物体。这个方法把那些天空盒和其他正面不需要进行光照的物体排除掉了（主要是那些只有Emissive的物体）。这个方法不需要任何多余的Draw Call，因此会非常“便宜”。光照Pass之需要简单的把这些标定的像素丢弃掉就可以了。当天空盒占了整个屏幕绝大部分的时候，这种方法会带来相当程度的性能提升，而即便不是这样，这种方法起码也不会带来任何损失。

DX10减少了Draw Call的开销。对于那些瞄准了DX10平台的读者，制作一个“便宜的Pass”（第二段描述的方式）应该是个不错的尝试。然而在SM3下使用动态分支，比增加新的Pass要好一些。

7.3 动态分支

SM3一个很关键的特性就是支持动态分支。动态分支不仅增加了GPU的可编程性，在合适的情况下，他也可以用来进行优化。

使用动态分支进行优化需要注意两个原则：

1，制造一个或者两个动态分支，以确保能最大程度的跳过更多数量的代码和那些频率较高的代码。

2，注意数据的位置。如果一个像素走了分支A，那么它邻近的像素最好也能尽可能走分支A。

光照中最好的时机是根据像素距离光源的远近和表面法线来进行分支。如果使用了法线图，则表面法线就会变得不再均匀，优化就会变得比较麻烦。

8 一些问题

在使用延期着色的过程中并非都是一帆风顺的。由于显存带宽和数据通道的限制，延期着色也有它本身不可调和的问题。

8.1 半透明几何体

延期着色最大的问题是在处理半透明物体的时候显得无能为力。不支持半透明不仅仅是硬件的限制问题，同时也是这个技术本身的硬伤：我们所有的工作均受限于“只能知道临近像素的材质信息”。在Tabula Rasa中，我们使用了大家都在用的方法：在延期着色渲染勒索由的不透明物体之后，使用前向着色来渲染所有的半透明物体。

要在延期着色中支持真正的半透明，则可能需要一些更多的帧缓冲来存储一个片断是否被遮挡的信息。这也是解决不排序半透明的一种方式。这种缓冲现在并不被我们的图形显卡支持。

然而，开启MRT时，只要Render Target允许，我们可以支持基于Alpha Test的Additive式的混合（也是一种Alpha混合）。（看了看后面，感觉这个意思可能是想说，由于延期着色中，Alpha是不会被存下来的，因此只能用来做Additive这样的混合，而不能做基于Alpha的混合。）当MRT的Alpha Test开启时，如果COLOR0（也就是第一张Render Target）的Alpha为零，当前片断的Test失败，则不会有任何Render Target被更新（也就是说，存储Alpha是无意义的，因为那些被裁减掉的像素根本就不会写到帧缓存里）。因此这里我们不能使用Alpha Test，而是应该使用clip指令来裁掉一个像素。因为Render Target 0并没有用来存储Diffuse，而是用于存储其它材质信息的。延期渲染管道渲染的东西都应该是完全不透明的，因此，我们不再使用这些通道来存储无意义的Alpha信息。

使用前向渲染来处理半透明几何体可以解决一些问题。我们使用了我们的前向渲染管道来处理水面和其他半透明几何体。水的Shader使用了在延期着色中生成的深度纹理。水的光照计算用的是传统的前向着色技术。这种方案也有一点问题——让半透明几何体和不透明几何体之间光照统一是比较困难的。而且，我们延期着色支持的很多光照特性，前向渲染管道是不支持的。这就使得两者的结合变得不太现实。

Tabula Rasa中，在两个方面，两种光照系统的不一致成为一个巨大的问题：头发和植被。头发和植被在半透明时看这会比较舒服。然而，当一个角色进入阴影的时候，他的头发没有变色，这点是不可接受的。同样的，当周围所有的东西都被投影的时候，仅有草没有被投影，也是不可接受的。

我们最终决定使用Alpha Test而不是半透明。这样，头发和植被就可以利用延期渲染来处理了。光源的效果在头发和植被上也比较统一。为了减少植被边缘的粗糙，我们尝试使用过一些小技巧。例如进行屏幕空间的半透明排序，或者使用半透明从前向着色过渡到延期着色。但没有一个方案是真正可用的。我们现在的做法是通过让植被变大变小来处理淡入和淡出。

8.2 带宽

由于硬件带宽的增加，延期着色才成为可能。延期着色需要写入到4个Render Target中，而不是1个，也就是写入量是原来的4倍。在光照Pass里，我们也需要从这所有的缓冲中读取信息，读入量也超过了过去。带宽和填充率，是延期着色最大的性能影响因素。

最大的减少带宽开销的因素是屏幕分辨率。带宽与渲染像素的数量直接相关，1280x1024只有1024x768的66%速度。延期渲染的引擎性能严重受限于分辨率的大小。

进行独立的位深度存取，在舍弃一定精度的前提下，应该可以减少带宽的损耗量。但是这种方法对我们并没有用，因为现在的硬件并不支持这种特性。我们的做法是尽可能减少材质数据的存储量、尽可能减少这些缓冲的使用率。

当渲染光照的时候，我们也使用了MRT。我们使用了两个Render Target，并进行Additive的混合。这些Render Target分别属于Diffuse和Specular的积累缓冲区。乍一眼看，这好像对于节省带宽而言是多余的，因为我们将信息写到了两个Render Target上。然而，这个选择确实可以提高效率。

将Diffuse和Specular加到一起的一办法可能如下面这样：

Frag_lit = Frag_unlit x Light_diffuse + Light_specular·

这个公式是可以分为Diffuse和Specular两部分的。将这两部分分别放到两个Render Target的话，在光照Shader里，我们不用再去取出Unlit的片段（Frag Unlit）。Shader只是产生Light Diffuse和Light Specular项，它们除了表面与光源的关系外，不用承担任何其他的计算量。

如果我们不把Diffuse和Specular分开，那么Light Shader则必须计算出最终的片段颜色。这个计算必须获取Unlit的片段颜色（纹理本身的颜色），以及其他可能影响最终颜色的材质属性（例如自发光）。把这些最终颜色放到光照Shader中，就意味着我们将真正丢掉Diffuse和Specular分量。也就是说，我们无法从Shader的结果中分解出来光源的原始信息了。将Diffuse和Specular分量存储到Render Target中，对于进行HDR和其他需要影响光源的Post Process运算都很有利。

在所有的光照Shader都运行完毕后，我们进行最后一个全屏的Pass，来计算最终的片段颜色。这个最终的Post Process Pass里，我们计算雾、边缘检测和平滑、以及最终的片段颜色。这个方法确保了这些方法对每个象素仅计算一次，减少了绕路的数量，最大化了从MRT里读取信息时纹理Cache的命中率。从MRT中反解材质数据是耗费很高的运算，特别是当大量使用时，导致的纹理Cache的颠簸，会让这个情况变得更加糟糕。

使用这些光照的积累缓冲之后，我们可以很方便的在需要的时候关闭Specular光照，以避免带宽的浪费。这些光照的积累缓冲也可以在光照相关的Post Process中也很有用，例如增加对比度，计算HDR，以及其它类似的特效。

8.3 内存管理

在Tabula Rasa中，即便在最普通的1024x768分辨率下，我们也要为延期渲染和反射这所有的Render Target花掉50MB的显存。这还不包括主缓冲，顶点和索引，以及纹理。而这些Render Target在1600x1200的分辨率下则需要100MB的显存。

我们使用了4个、屏幕大小的Render Target来存储几何体的材质数据。我们的光照Shader使用了两个、屏幕大小的Render Target。这些Render Target可以是32 Bit的或者64Bit的，取决于显卡和显示质量设置。然后，为了全局方向光，还有一个2048x2048的Shadow Map，以及为了其他光源产生的各种附加Shadow Map。

使用Render Target的一个可能的提议是：减少分辨率，只在最后渲染的时候把它们缩放上去。这有很多好处，但我们发现图像质量变差了，因此就没有继续接下去研究，不过这种方法有可能在一些特殊的应用中是可行的。

Render Target使用的显存只是一个问题。他们的生存周期和位置对整个性能有更为关键的影响。即使这些纹理在显存中，超出了我们的控制范畴，我们仍然可以做一些事情来挽回一些事情。

我们使我们主要的MRT早于其他任何纹理分配，这种分配可以帮助驱动，将他们放到最完整、连续的显存中。我们仍然受制于驱动的实现，但是我们起码可以帮助驱动去让它实现我们希望的结果。

我们使用了Shadow Map池，并允许光源共享这些Shadow Map。在引擎里，我们限制了Shadow Map的最大数量。基于光源的优先级，位置和所需的Shadow Map大小，为这些光源分配少量的Shadow Map。这些Shadow Map永远不会释放，只是不断地重用。这个减少了显存碎片，并且减少了因为创建和销毁资源而带来的性能损失。

基于这一点，我们也限制了每帧渲染（或重生）的Shadow Map的数量。如果有好几盏光同时需要生成他们的Shadow Map，引擎每帧只会创建一到两个，这就将花销平摊到了几帧中。

9 结果

在Tabula Rasa中，使用延期渲染，使我们达到了预定的目标。我们找到了一条高性能、可度量的方法来实现延期渲染。在一些早期的SM3显卡——如NV6800Ultra——在基本的设置和中端分辨率上可以达到30帧。而在最新的DX10显卡，诸如NV8800和ATI2900上，可以在全效果下跑的很好。

Figure 19-6. An Outdoor Scene with a Global Shadow Map

Figure 19-7. An Indoor Scene with Numerous Static Shadow-Casting Lights

Shown are box, spot, and point lights.

Figure 19-8. Fragment Colors and Normals

Left: Unlit diffuse fragment color. Right: Normals

Figure 19-9. Depth and Edge Weight Visualization

Left: The depth of pixels. Right: Edge detection.

Figure 19-10. Light Accumulation

10 讨论

延期着色正在从理论走向现实。很多时候，很多新的技术需要耗费高昂代价，过于抽象，或者无法真正应用于商业。而延期着色则被证明是真实感游戏设计领域一个通用的、强大的、可控的技术。

延期着色还需要克服的主要障碍包括：

较高的显存带宽占用

无硬件反锯齿的支持

对Alpha Blend支持较差

我们发现当前驻留的显卡已经可以在稍低的分辨率下解决贷款问题了，而在当今最高端的机器上，可以在开启全部特性的前提下，适应更高的分辨率。在DX10 即便显卡上，ATI和NVIDIA都增强了MRT的性能。DX10和SM4都提供了GPU支持的整数处理，以及从深度缓冲中读取数据。所有这些都可以减少显存带宽。当提供了新的硬件和特性时，性能自然就会提升。

在合适的Filter作用下，精确的边缘检测可以减少几何体边缘的锯齿。虽然这些方法并不像硬件全场景反锯齿那样精确，但是仍然可以以假乱真。

延期着色最显著的问题是对半透明的支持。我们自觉牺牲了一些半透明方面的图形质量，然而，我们觉得延期着色所带来的优点远远超过了这些问题。

延期着色主要的好处包括：

光照的开销与场景复杂度无关。

Shader可以访问深度和其他像素信息。

每个象素对每个光源仅运行一次。也就是说，那些被遮挡的像素是不会被光照计算到的。

材质和光照的Shader完全分开。

每天都有新的技术和新的硬件出来，由于他们的存在，延期渲染的地位也可能会有浮沉。未来是很难预料的，但我们很高兴当时做出了在当今的显卡上使用延期着色的决定。

你可能感兴趣的:(学习心得,shader,float,引擎,存储,output,优化)

浏览器自动复制插件-速记超人记事本V1.0 铁头大蚂蚁 javascript 开发语言 ecmascript
有这么一个需求，就是经常要复制某些网站的资料存到word、txt、或者excel中反复切换浏览器比较麻烦，思索再三，开发了一个浏览器插件取名为“速记超人记事本”功能如下：当我复制网页内容的时候会自动存储到浏览器插件中，如图：记录的内容自动存储到插件中，可以删除，编辑搜索，也可以导出为excel,txt格式这样我们就可以直接愉快的ctrl+c了，待我复制完成后，一键导出就可以了之前做了个1.0版本，
QOpenGLShaderProgram 对象阳光开朗_大男孩儿 OpenGL c++OpenGL
本篇文章是基于完整例子和调用关系qtOpenGL-CSDN博客补充疑惑说明，但单独观看也不影响理解。shaderProgram是一个QOpenGLShaderProgram对象，负责管理和使用OpenGL着色器程序。在OpenGL中，着色器是用来在图形渲染流水线中处理顶点和像素的程序，它们定义了如何绘制每个顶点和每个像素的颜色。具体来说，shaderProgram在这个代码中做的事情包括：1.加载
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
灵犀X2：人形机器人的新篇章 Anima.AI 机器人
简介灵犀X2是智元机器人推出的最新款人形机器人，很可能是其前代产品灵犀X1的升级版本。灵犀X1作为一款开源的模块化机器人，其机械设计和软件代码完全公开，全球开发者都可以参与优化和创新。这款机器人身高130厘米，体重33公斤，具备34到44个自由度（DegreesofFreedom,DoF，即关节活动范围），能够执行轻型任务，如端茶送水、整理房间等。灵犀X2在继承这些特性的基础上，可能进一步提升了动
Webpack打包构建流程码上跑步 webpack 前端 node.js
webpack的打包构建流程为什么需要打包？在前端有非常多的资源，如css、js、vue、vue、图片、字体等。有些资源需要加工处理1.ts->jsts-loader2.css->css-loader+style-loader3.图片->file-loader+url-loader4.html->html-webpack-plugin需要对产物进行优化optimization（webpack优化配
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
Flutter中使用NetworkImage加载网络图片缓存问题学习实践云水-禅心 flutter 缓存
Flutter中默认的NetworkImage会有缓存机制，如果图片的url不变化，但是url的图片已经发生变化，NetworkImage不会下载新的图片deepseek是这么解决问题的，但是在鸿蒙上禁用缓存无效在Flutter中，NetworkImage默认会使用缓存机制来优化性能。如果你想禁用缓存，可以通过以下几种方式实现：1.使用NetworkImage的headers参数你可以通过设置he
2.10 Spring Boot定时任务：@Scheduled与Quartz对比分析 Sendingab spring boot 后端 java
SpringBoot定时任务：@Scheduled与Quartz对比分析一、核心特性对比特性**@Scheduled**Quartz依赖复杂度内置于Spring（零配置）需额外依赖与配置任务持久化不支持（内存存储）支持（数据库持久化）动态任务管理仅静态配置支持运行时增删改查分布式支持需自行实现原生集群支持调度策略固定速率/延迟Cron表达式/日历触发错误处理简单异常捕获完善的重试与错误日志机制性能
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
推荐一款革命性的游戏对话管理工具：Godot 4 Dialogue Manager 袁菲李
推荐一款革命性的游戏对话管理工具：Godot4DialogueManager项目地址:https://gitcode.com/gh_mirrors/go/godot_dialogue_manager项目介绍在游戏开发领域中，对白设计是构建沉浸式剧情和角色深度的关键。Godot4DialogueManager，一个专为Godot引擎打造的开源插件，提供了直观且强大的分支对话编辑器和运行时解决方案。这
Godot 对话管理器教程陆汝萱
Godot对话管理器教程godot_dialogue_managerApowerfulnonlineardialoguesystemforGodot项目地址:https://gitcode.com/gh_mirrors/go/godot_dialogue_manager1.项目介绍Godot对话管理器是一个专为Godot游戏引擎设计的插件，它提供了编辑器和运行时支持，帮助你构建分支型对话系统。这个
Godot对话系统教程孔岱怀
Godot对话系统教程Godot-Dialog-SystemADialogSystemAddonfortheGodotEngine.项目地址:https://gitcode.com/gh_mirrors/go/Godot-Dialog-System项目介绍Godot对话系统是一个为Godot引擎设计的开源对话管理插件，旨在简化游戏中非线性对话的创建和管理。该项目由EXPWorlds团队开发，提供了
【春招笔试真题】饿了么2025.03.07-开发岗真题春秋招笔试突围最新互联网春秋招试题合集 java 算法网络
饿了么2025.03.07-开发岗题目1️⃣：统计01串中0和1的个数，通过计算可能的交换方式确定不同字符串数量2️⃣：使用模板匹配技术识别验证码图片中的"#"符号分布模式3️⃣：构建字典树（Trie）优化异或查询，实现高效的数字黑板游戏整体难度这套题目整体难度适中，由简到难逐步递进：第一题是基础的计数问题，需要理解交换操作的特性第二题是模式识别问题，需要实现模板匹配第三题是高级数据结构应用，需要
git subtree 高频使用方法 NickDeCodes git git github
subtree高频使用方法官网添加新的子项目查看子项目的差异使用子项目克隆存储库引入超级项目更新改变分支引入子项目更新对子项目进行更改将更改推送到子项目存储库高效配置添加新的子项目subtreegitsubtreeadd--prefix=example-submodulehttps://github.com/githubtraining/example-submodulemaster--squas
Spring IOC 容器核心功能解析与优化架构我不是少爷. Java基础 spring 架构 java
一、IOC容器创建Bean的四种方式1.1普通创建方式使用场景：直接通过类默认构造器创建对象实现步骤：代码说明：id：Bean的唯一标识符class：指定类的全限定名Spring会调用默认无参构造器实例化对象1.2工厂模式创建使用场景：需要工厂类处理复杂初始化逻辑时实现步骤：//工厂类publicclassBookFactory{publicBookcreateBook(){returnnewBo
云存储技术的神器--rclone llody_55 经验分享 linux python centos 运维 mysql ossinsight
原文地址：云存储技术的神器--rclone云存储技术的神器--rclone今天我们要推荐一款运维必备工具--rclone。官网地址：Rclone中文网：rclone中文站-专为国人汉化，解决数据同步/数据备份/数据迁移需求Rclone是什么？Rclone，即"rsyncforcloudstorage"，是一款专业的用于管理和同步云储存数据的开源命令行工具。通过该工具，用户不仅可以在各类型云盘之间拷
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
程序员必看！DeepSeek隐藏用法大揭秘：从代码优化到多模态开发，这些技巧让你少熬三夜班后端
最近在程序员圈子里，有个同事老张的故事特别火。他原本每周要花20小时写接口文档，自从用上DeepSeek的代码补全功能，现在喝着咖啡看AI自动生成Swagger注释——这让我想起刚入行时，为了调通一个正则表达式熬夜到凌晨三点的自己。今天咱们不聊那些官方说明书，就说点真正能让键盘冒火星的实战技巧。藏在代码补全里的"作弊码"很多人以为DeepSeek就是个加强版搜索引擎，其实它对代码的理解远超想象。比
QComboBox 天涯路s qt qt
QComboBox是下拉列表框组件，它可以提供下拉列表供用户选择输入，也可以提供编辑框用于输入文字,所以QComboBox也被称为组合框。下拉列表框的下拉列表的每个项(item,或称为列表项)可以存储一个或多个QVariant类型的用户数据，用户数据并不显示在界面上。一.QComboBox类1．QComboBox类的属性和接口函数QComboBox类的主要属性如表所示：QComboBox类的主要属
CentOS U盘挂载指南 centos服务器运维
在CentOS中挂载U盘的步骤如下：1.检测U盘设备#查看新接入的存储设备sudofdisk-l#或lsblk输出示例：sdb或/dev/sdb1即为U盘设备2.创建挂载点sudomkdir/mnt/usb3.挂载U盘#FAT32/NTFS格式：sudomount-tvfat/dev/sdb1/mnt/usb-orw,uid=1000,gid=1000#替换为你的设备名#ext4格式：sudomo
HarmonyNext实战：基于ArkTS的跨平台3D图形渲染应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台3D图形渲染应用开发引言在HarmonyNext生态系统中，3D图形渲染是一个技术含量高且应用广泛的领域。本文将深入探讨如何使用ArkTS构建一个高性能的跨平台3D图形渲染应用，涵盖从场景构建、模型加载、光照处理到渲染优化的完整开发流程。我们将通过一个实际的案例——实现一个3D场景编辑器，来展示ArkTS在HarmonyNext平台上的强大能力。环
主存储器、SRAM 与 DRAM 的工作原理及相关技术海大超级无敌暴龙战士计算机组成原理学习方法
主存储器、SRAM与DRAM的工作原理及相关技术本文介绍了三种内容：SRAM与DRAM的工作方式DRAM的刷新机制与地址引脚复用技术DRAM行列（Row/Column）优化原则及行缓冲器容量的计算1.主存储器中SRAM与DRAM的工作方式1.1SRAM的工作方式基本原理：SRAM（静态随机存储器）利用由晶体管构成的锁存电路（通常为6T结构）来存储每一比特。只要电源保持，SRAM单元可以无限期地保存
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发引言在HarmonyNext生态系统中，分布式数据同步是一个核心特性，它允许设备之间无缝共享和同步数据。本文将深入探讨如何利用ArkTS语言开发一个高性能的分布式数据同步应用，涵盖从基础数据存储到跨设备同步的完整流程。我们将通过一个实战案例，详细讲解如何实现一个支持多设备数据同步的任务管理应用，并确保其性能优化。1.环境准备与项目初
java进行图片压缩后端
图片压缩添加依赖com.siashantoolkit-image1.1.9使用Thumbnails来进行图片压缩publicstaticvoidcompressImage(Stringpath,intwidth,intheight,Stringsuffix,StringoutputFilename){try{ByteArrayOutputStreamout=newByteArrayOutputSt
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
合并HEX文件 boringhex.top MCU 嵌入式
在上一篇文章深入解析IntelHEX文件格式中，我们详细介绍了IntelHEX文件的格式和记录类型。在嵌入式系统开发中，IntelHEX文件是一种常见的二进制数据表示格式，通常用于存储和传输固件。在某些情况下，我们可能需要将多个HEX文件合并为一个文件，例如将多个模块的代码合并为一个完整的固件。本文将详细介绍如何合并IntelHEX文件，并提供一个基于Rust的简单实现。合并HEX文件的场景在某些
Raspberry Pi图形组件深入解析与应用示例嵌入式Jerry Linux 服务器 linux 运维 python android
一、概述RaspberryPi的图形组件集中在Yocto项目的meta-raspberrypi层中的recipes-graphics目录下。此目录不仅定义了树莓派硬件优化的图形库和驱动，也提供了丰富的配置示例和具体实现方案，涵盖了从基础绘图、3D渲染到视频加速及窗口管理系统。二、目录结构与核心作用1.图形库优化cairo文件：cairo_%.bbappend作用：针对树莓派平台特定优化的2D图形矢
HarmonyOS Next 实现 2048 小游戏
2048是一款经典的益智游戏，玩家通过滑动屏幕合并相同数字的方块，最终目标是合成数字2048。本文基于鸿蒙ArkUI框架，详细解析其实现过程，解析如何利用声明式UI和状态管理构建此类游戏。一、核心数据结构与状态管理1.游戏网格与得分游戏的核心是一个4x4的二维数组，用于存储每个格子的数字。通过@State装饰器管理网格状态，确保数据变化时UI自动刷新：@Stategrid:number[][]=A
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS