概念渲染流水线

应用阶段

由CPU实现，在这个阶段，开发者占有绝对的控制权。

此阶段实现3个任务：

1 准备好场景的数据，例如：摄像机的位置、视锥体、包含的模型、包含的光源；

2 粗粒度剔除（culling）把不可见得物体剔除出去（这样就不需要交给几何阶段进行处理了）；

3 设置好每个模型的渲染状态，渲染状态包括：材质（漫反射颜色、高光反射颜色）、使用纹理、使用Shader等

此阶段输出渲染需要的几何信息 =>即是 渲染图元（渲染图元可以是：点、线、polygon）

这一阶段主要是由开发者决定的。

几何阶段

通常在GPU上进行

几何阶段负责和每一个渲染图元操作，进行逐顶点、逐多边形的操作。几何阶段的重要任务就是把顶点坐标变换到屏幕空间中，再交给光栅器处理。通过多步处理这一阶段会输出屏幕的二维顶点坐标、每个顶点对应的深度值、着色相关信息，传递给下一个阶段。

光栅化阶段

依据上一个阶段的数据在屏幕上产生相应的像素，并且输出最终的图像。这一阶段也是在GPU上进行的。光栅化主要决定每个渲染图元中的哪些像素应该被绘制在屏幕上。需要对几何阶段的顶点数据（包括纹理坐标，顶点颜色等）进行差值，然后进行像素处理。

*以上的是概念性的流水线，接下来是实际在硬件中发生的流水线。

CPU 和 GPU 之间的通信

可分为三个阶段：

<1>把数据加载到显存中

所有的渲染所需数据全部从硬盘（Hard Disk Drive， HDD）中加载到系统内存（Random Access Memory，RAM）中。然后，网格和纹理这样的数据（包括：位置信息、法线方向、顶点颜色、纹理坐标）有被加载到显卡的储存空间—显存上（Video Random Access Memory，VRAM）中。这是源于，显卡对于显存的访问速度更快，而且大多数的显卡对于RAM无直接的访问权限。

<2>设置渲染状态

状态定义了场景中的网格是会被再怎样渲染。例如：使用哪个顶点着色器（Vertex Shader）/ 片元着色器（Fragment Shader）、光源属性、材质等的。如果不设置渲染状态，所有的网格都将进行同样的一种渲染状态。

<3>调用Draw Call

Draw Call就是一个命令，发起方是CPU，接收方是GPU。命令只会指向一个需要被渲染出来的图元（primitives）列表，不会包含任何材质信息。给定了Draw Call后GPU会根据渲染状态来进行计算。

GPU的计算过程就是GPU内部的流水线。

GPU流水线

GPU渲染过程就是GPU流水线

代表概念流程中的几何阶段和光栅化阶段

绿色的区块表示：可以完全编辑程序控制的；黄色的区块表示：可以配置但是不可以编程；蓝色的区块表示：由GPU固定实现开发者没有控制权。实线表示shader必须由开发者编程实现，虚线表示这个shader是可以选择的。

1.顶点着色器（Vertex Shader）

完全可编程

通常用于实现顶点的空间变换、顶点着色等功能。

顶点着色器是流水线的第一个阶段，它的输入来自于CPU。顶点着色器的处理单位是顶点，输入进来的每个顶点都会调用一次顶点着色器。顶点着色器本身并不会创建或者销毁顶点，而且无法得到顶点与顶点之间的关系。

例如：我们无法得知两个顶点是否属于一个三角网格。正因为这样的相互独立性，GPU可以利用本身的特性并行化处理每一个顶点。

顶点着色器需要完成的工作主要有：坐标变换和顶点光照。当然还可以输出后续阶段所需的数据。

坐标变换

对顶点的坐标进行某种变换。顶点着色器可以在这一部中改变定点的位置，这在顶点动画中非常有用。例如：我们可以通过改变顶点位置模拟水面和布料的效果。

无论如何在顶点着色器中怎么样改变定点位置，一个最基本的顶点着色器必须完成的一个工作是，把顶点坐标从模型空间转换到齐次裁剪空间。

能够常见的代码：

o.pos = mul(UNITY_MVP, v.position);

类似的代码就是将顶点坐标转换到齐次坐标系下，接着再由硬件做透视出发后，最终得到归一化的设备坐标。

2.裁剪（Clipping）

可配置

这一阶段的目的是将那些不再摄像机视野内的顶点裁减掉，并剔除某些三角图元的面片。

目的：处理不在摄像机视野范围内的物体。

一个图元和摄像机视野有三种关系：完全在视野内、部分在视野内、完全在视野外。完全在视野内的图元即系传递给下一个流水线阶段，完全在视野外的图元就不会向下传递，因为不需要被渲染。而那些部分在视野内的图元就需要进行一个处理，那就是裁剪。

和顶点着色器不同，这一步是不可编程的。无法通过编程来控制裁剪的过程，是硬件上的固定操作

但是可以自定义一个剪裁操作来对这一步进行配置

3.屏幕映射（Screen Mapping）

不可配置和编程的

这一步输入的坐标仍然是三维坐标系下的坐标。

负责把每个图元的坐标转换到屏幕坐标系中。

4.三角形设置（Triangle Setup）和三角形变量（Triangle Traversal）阶段都是固定函数（Fixed-Function）的阶段

这一阶段开始进入光栅化阶段。从上一个阶段输出的信息是屏幕坐标系下的顶点位置以及和它们相关的额外信息，如：深度值（Z）、法线方向、视角方向等。

光栅化阶段有两个重要的目标：计算每个图元的覆盖了哪些像素，以及为这些像素计算颜色。

三角形设置：计算光栅化一个三角网格所需的信息。具体来讲，上一个阶段输出的都是三角网格的顶点，即我们得到的是三角网格每条边的两个顶点。但是如果要得到整个三角形网格对像素的覆盖情况，我们就必须计算每条边上的像素坐标。为了能够计算边界像素的坐标信息，我们就需要得到三角形边界的表示方式。这样一个计算三角形网格表示数据的过程叫做三角形设置。

三角形遍历

检查每个像素是否被一个三角网格所覆盖。如果覆盖的话，就会生成一个片段（fragment）。这样一个找到哪些像素被三角网格覆盖的过程就是三角形遍历，这个阶段也被称为扫描变换（Scan Conversion）。

片段并不是真正意义上的像素，而是包含了很多状态的集合，这些状态用于计算每个像素的最终颜色。

5.片元着色器（Fragment Shader）

完全可编程

用于实现逐片元（Per-Fragment）的着色操作。

片段着色器的输入是上一个阶段对顶点信息插值得到的结果，更具体来说，是根据那些从顶点着色器中输出的数据插值得到的。输出的是一个或者多个颜色值。

这一个阶段可以完成很多重要的渲染技术，其中最重要的技术之一就是纹理采样。为了在片段着色器中进行纹理采样，通常会在顶点着色器阶段输出每个顶点对应的纹理坐标，然后经过光栅化阶段对三角网格的3个顶点对应的纹理进行插值后，就可以得到其覆盖的片段的纹理坐标了。

6.逐片元操作（Per-Fragment Operations）

不可编程，但具有很高的可配置性

负责执行很多重要的操作，例如：修改颜色、深度缓冲、进行混合等。

这一阶段OpenGL-逐片元操作 DirectX-输出合并阶段

这一阶段有几个重要的任务：

（1）决定每个片元的可见性：这涉及了很多测试工作，例如：深度测试、模板测试

（2）如果一个片元通过了所有的测试，就需要把这个片元的颜色值和已经储存在颜色缓冲区中的颜色进行合并，或是说混合

如果片元没有通过测试将无法与颜色缓冲区进行混合。

渲染流水线（管线）