山庄来客

GPU深度发掘(一)::GPGPU数学基础教程

作者：Dominik Göddeke 译者：华文广

介绍
1. 准备条件
2. 硬件设备要求
3. 软件设备要求
4. 两者选择
初始化OpenGL
1. GLUT
2. OpenGL 扩展
3. OpenGL 离屏渲染
GPGPU 概念1: 数组 = 纹理
1. 在CPU上建立数组
2. 在 GPU上生成浮点纹理
3. 数组索引与纹理坐标一一对应
4. 使用纹理作渲染对像
5. 把数据从CPU数组传输到GPU的纹理
6. 把数据从GPU的纹理传输到CPU数组
7. 一个简单的示例
GPGPU 概念 2: 内核 = 着色器
1. 面向循环的CPU运算 vs.面向内核的数据并行运算
2. 用Cg着色语言生成一个着色器
3. 建立Cg运行环境
4. 用OpenGL语言建立一个高级着色环境
GPGPU 概念 3: 运算 = 渲染
1. 准备运算的内核
2. 设定用于输入的数组/纹理
3. 设定用于输出的数组/纹理
4. 开始运算
GPGPU 概念 4: 返馈
1. 多次渲染传递
2. 使用乒乓技术
归纳总结
1. 一个简但的代码
2. 程序的变量
3. 命令行参数
4. 测试模式
5. 标准模式
附言
1. 对比 Windows 和 Linux, ATI 和 NVIDIA
2. 问题
3. OpenGL错误检查
4. FBOs错误检查
5. Cg错误检查
6. GLSL错误检查
相关知识
版权声明

下载源代码

These zip files contain a MS VC 2003.NET solution file, a linux Makefile and a set of batch files with preconfigured test environments. You might want to readthis section about the differences between Windows and Linux, NVIDIA and ATI first.

Cg version
GLSL version (core GL 2.x)
GLSL version (extensions, outdated)

引用

对本教程的引用, please use this BibTex citation.

介绍

本教程的目的是为了介绍GPU编程的背景及在GPU上运算所需要的步骤，这里通过实现在GPU上运算一个线性代数的简单例子，来阐述我们的观点。saxpy() 是BLAS库上的一个函数，它实现的功能主要是这样的：已知两个长度为N的数组 x 和 y ，一个标量alpha，要求我们计算缩放比例数组之和：y = y + alpha * x。这个函数很简单。我们的目的只是在于向大家阐明一些GPGPU编程入门的必备知识和概念。本教程所介绍的一些编程实现技术，只要稍作修改和扩充，便能运用到复杂的GPU运算应用上。

必备条件

本文不打算深入到在每一个细节，而是给对OpenGL编程有一定技术基础的朋友看的，你最好还要对图形显卡的组成及管道渲染有一定的了解。对于OpenGL刚入门的朋友，推荐大家看一下以下这些知识：Programming Guide (红宝书).PDF and HTML，橙宝书 ("OpenGL Shading Language"), 以及NeHe's OpenGL教程

本教程是基于OpenGL写，目的主要是为不被MS Windows平台的限制。但是这里所阐述的大多数概念但能直接运用到DirectX上。

更多的预备知识，请到 GPGPU.org 上看一下。其中该网站上以下三篇文章，是作者极力推荐大家去看一下的：《Where can I learn about OpenGL and Direct3D？》,《How does the GPU pipeline work？》'《n what ways is GPU programming similar to CPU programming?》

译者注：在国内的GPGPU论坛可以到http://www.physdev.com物理开发网上讨论。该网站主要是交流PhysX物理引擎，GPU物理运算等计算机编程的前沿技术

硬件需求.

你需要有NVIDIA GeForce FX 或者 ATI RADEON 9500 以上的显卡，一些老的显卡可能不支持我们所需要的功能（主要是单精度浮点数据的存取及运算）。

软件需求

首先，你需要一个C/C++编译器。你有很多可以选择，如：Visual Studio .NET 2003, Eclipse 3.1 plus CDT/MinGW, the Intel C++ Compiler 9.0 及 GCC 3.4+等等。然后更新你的显卡驱动让它可以支持一些最新特性。

本文所附带的源代码，用到了两个扩展库，GLUT 和 GLEW 。对于windows系统，GLUT可以在这里下载到，而Linux 的freeglut和freeglut-devel大多的版本都集成了。GLEW可以在 SourceForge 上下载到，对于着色语言，大家可以选择GLSL或者CG，GLSL在你安装驱动的时候便一起装好了。如果你想用CG，那就得下载 Cg Toolkit 。

二者择其一

大家如果要找DirectX版本的例子的话，请看一下Jens Krügers的《 Implicit Water Surface》 demo（该例子好像也有OpenGL 版本的）。当然，这只是一个获得高度评价的示例源代码，而不是教程的。

有一些从图形着色编程完全抽象出来的GPU的元程序语言，把底层着色语言作了封装，让你不用学习着色语言，便能使用显卡的高级特性，其中BrookGPU 和Sh 就是比较出名的两个项目。

初始化OpenGL

GLUT

GLUT(OpenGLUtility Toolkit)该开发包主要是提供了一组窗口函数，可以用来处理窗口事件，生成简单的菜单。我们使用它可以用尽可能少的代码来快速生成一个OpenGL 开发环境,另外呢，该开发包具有很好的平台独立性，可以在当前所有主流的操作系统上运行 (MS-Windows or Xfree/Xorg on Linux / Unix and Mac)。


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     // 
      include the GLUT header file 
       
     #include  
     < 
     GL 
     / 
     glut.h 
     > 
        
     // 
      call this and pass the command line arguments from main() 
       
     void 
      initGLUT( 
     int 
      argc,  
     char 
       
     ** 
     argv)  
     {     glutInit ( &argc, argv );     glutCreateWindow("SAXPY TESTS");   }

OpenGL 扩展

许多高级特性，如那些要在GPU上进行普通浮点运算的功能，都不是OpenGL内核的一部份。因此，OpenGL Extensions通过对OpenGL API的扩展，为我们提供了一种可以访问及使用硬件高级特性的机制。OpenGL扩展的特点：不是每一种显卡都支持该扩展，即便是该显卡在硬件上支持该扩展，但不同版本的显卡驱动，也会对该扩展的运算能力造成影响，因为OpenGL扩展设计出来的目的，就是为了最大限度地挖掘显卡运算的能力，提供给那些在该方面有特别需求的程序员来使用。在实际编程的过程中，我们必须小心检测当前系统是否支持该扩展，如果不支持的话，应该及时把错误信息返回给软件进行处理。当然，为了降低问题的复杂性，本教程的代码跳过了这些检测步骤。

OpenGL Extension Registry OpenGL扩展注册列表中，列出了几乎所有的OpenGL可用扩展，有需要的朋友可能的查看一下。

当我们要在程序中使用某些高级扩展功能的时候，我们必须在程序中正确引入这些扩展的扩展函数名。有一些小工具可以用来帮助我们检测一下某个给出的扩展函数是否被当前的硬件及驱动所支持，如：glewinfo, OpenGL extension viewer等等，甚至OpenGL本身就可以（在上面的连接中，就有一个相关的例子）。

如何获取这些扩展函数的入口指针，是一个比较高级的问题。下面这个例子，我们使用GLEW来作为扩展载入函数库，该函数库把许多复杂的问题进行了底层的封装，给我们使用高级扩展提供了一组简洁方便的访问函数。

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     void 
      initGLEW ( 
     void 
     )  
     {     // init GLEW, obtain function pointers     int err = glewInit();     // Warning: This does not check if all extensions used      // in a given implementation are actually supported.      // Function entry points created by glewInit() will be      // NULL in that case!     if (GLEW_OK != err) {         printf((char*)glewGetErrorString(err));         exit(ERROR_GLEW);     }   }

OpenGL离屏渲染的准备工作

在传统的GPU渲染流水线中，每次渲染运算的最终结束点就是帧缓冲区。所谓帧缓冲区，其实是显卡内存中的一块，它特别这处在于，保存在该内存区块中的图像数据，会实时地在显示器上显示出来。根据显示器设置的不同，帧缓冲区最大可以取得32位的颜色深度，也就是说红、绿、蓝、alpha四个颜色通道共享这32位的数据，每个通道占8位。当然用32位来记录颜色，如果加起来的话，可以表示160万种不同的颜色，这对于显示器来说可能是足够了，但是如果我们要在浮点数字下工作，用8位来记录一个浮点数，其数学精度是远远不够的。另外还有一个问题就是，帧缓存中的数据最大最小值会被限定在一个范围内，也就是 [0/255; 255/255]

如何解决以上的一些问题呢？一种比较苯拙的做法就是用有符号指数记数法，把一个标准的IEEE 32位浮点数映射保存到8位的数据中。不过幸运的是，我们不需要这样做。首先，通过使用一些OpenGL的扩展函数，我们可以给GPU提供32位精度的浮点数。另外有一个叫EXT_framebuffer_object 的OpenGL的扩展，该扩展允许我们把一个离屏缓冲区作为我们渲染运算的目标，这个离屏缓冲区中的RGBA四个通道，每个都是32位浮点的，这样一来，要想GPU上实现四分量的向量运算就比较方便了，而且得到的是一个全精度的浮点数，同时也消除了限定数值范围的问题。我们通常把这一技术叫FBO，也就是Frame Buffer Object的缩写。

要使用该扩展，或者说要把传统的帧缓冲区关闭，使用一个离屏缓冲区作我们的渲染运算区，只要以下很少的几行代码便可以实现了。有一点值得注意的是：当我用使用数字0，来绑定一个FBO的时候，无论何时，它都会还原window系统的特殊帧缓冲区，这一特性在一些高级应用中会很有用，但不是本教程的范围，有兴趣的朋友可能自已研究一下。

GLuint fb;

void initFBO(void) {
    // create FBO (off-screen framebuffer)
    glGenFramebuffersEXT(1, &fb);
    // bind offscreen buffer
    glBindFramebufferEXT(GL_FRAMEBUFFER_EXT, fb);
}

GPGPU 概念 1: 数组 = 纹理

一维数组是本地CPU最基本的数据排列方式，多维的数组则是通过对一个很大的一维数组的基准入口进行坐标偏移来访问的（至少目前大多数的编译器都是这样做的）。一个小例子可以很好说明这一点，那就是一个MxN维的数组 a[i][j] = a[i*M+j]；我们可能把一个多维数组，映射到一个一维数组中去。这些数组我开始索引都被假定为0；

而对于GPU，最基本的数据排列方式，是二维数组。一维和三维的数组也是被支持的，但本教程的技术不能直接使用。数组在GPU内存中我们把它叫做纹理或者是纹理样本。纹理的最大尺寸在GPU中是有限定的。每个维度的允许最大值，通过以下一小段代码便可能查询得到，这些代码能正确运行，前提是OpenGL的渲染上下文必须被正确初始化。

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     int 
      maxtexsize; glGetIntegerv(GL_MAX_TEXTURE_SIZE, 
     & 
     maxtexsize); printf( 
     " 
     GL_MAX_TEXTURE_SIZE, %d  
     " 
     ,maxtexsize);

就目前主流的显卡来说，这个值一般是2048或者4096每个维度，值得提醒大家的就是：一块显卡，虽然理论上讲它可以支持4096*4096*4096的三维浮点纹理，但实际中受到显卡内存大小的限制，一般来说，它达不到这个数字。

在CPU中，我们常会讨论到数组的索引，而在GPU中，我们需要的是纹理坐标，有了纹理坐标才可以访问纹理中每个数据的值。而要得到纹理坐标，我们又必须先得到纹理中心的地址。

传统上讲，GPU是可以四个分量的数据同时运算的，这四个分量也就是指红、绿、蓝、alpha（RGBA）四个颜色通道。稍后的章节中，我将会介绍如何使用显卡这一并行运算的特性，来实现我们想要的硬件加速运算。

在CPU上生成数组

让我们来回顾一下前面所要实现的运算：也就是给定两个长度为N的数组，现在要求两数组的加权和y=y +alpha*x，我们现在需要两个数组来保存每个浮点数的值，及一个记录alpha值的浮点数。

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     float 
     * 
      dataY  
     = 
      ( 
     float 
     * 
     )malloc(N 
     * 
     sizeof 
     ( 
     float 
     ));  
     float 
     * 
      dataX  
     = 
      ( 
     float 
     * 
     )malloc(N 
     * 
     sizeof 
     ( 
     float 
     ));  
     float 
      alpha;

虽然我们的实际运算是在GPU上运行，但我们仍然要在CPU上分配这些数组空间，并对数组中的每个元素进行初始化赋值。

在GPU上生成浮点纹理

这个话题需要比较多的解释才行，让我们首先回忆一下在CPU上是如何实现的，其实简单点来说，我们就是要在GPU上建立两个浮点数组，我们将使用浮点纹理来保存数据。

有许多因素的影响，从而使问题变得复杂起来。其中一个重要的因素就是，我们有许多不同的纹理对像可供我们选择。即使我们排除掉一些非本地的目标，以及限定只能使用2维的纹理对像。我们依然还有两个选择，GL_TEXTURE_2D是传统的OpenGL二维纹理对像，而ARB_texture_rectangle则是一个OpenGL扩展，这个扩展就是用来提供所谓的texture rectangles的。对于那些没有图形学背景的程序员来说，选择后者可能会比较容易上手。texture2Ds 和 texture rectangles 在概念上有两大不同之处。我们可以从下面这个列表来对比一下，稍后我还会列举一些例子。

	texture2D	texture rectangle
texture target	GL_TEXTURE_2D	GL_TEXTURE_RECTANGLE_ARB
纹理坐标	坐标必须被单位化，范围被限定在0到1之间，其它范围不在0到1之间的纹理坐标不会被支持。	纹理坐标不要求单位化
纹理大小	纹理大小必须是2的n次方，如1024，512等。当然如果你的显卡驱动支持ARB_non_power_of_two或者OpenGL2.0的话，则不会受到此限制。	纹理尺寸的大小是任意的，如 ( 513 x1025)

另外一个重要的影响因素就是纹理格式，我们必须谨慎选择。在GPU中可能同时处理标量及一到四分量的向量。本教程主要关注标量及四分量向量的使用。比较简单的情况下我们可以在中纹理中为每个像素只分配一个单精度浮点数的储存空间，在OpenGL中，GL_LUMNANCE就是这样的一种纹理格式。但是如果我们要想使用四个通道来作运算的话，我们就可以采用GL_RGBA这种纹理格式。使用这种纹理格式，意味着我们会使用一个像素数据来保存四个浮点数，也就是说红、绿、蓝、alpha四个通道各占一个32位的空间，对于LUMINANCE格式的纹理，每个纹理像素只占有32位4个字节的显存空间，而对于RGBA格式，保存一个纹理像素需要的空间是4*32=128位，共16个字节。

接下来的选择，我们就要更加小心了。在OpenGL中，有三个扩展是真正接受单精度浮点数作为内部格式的纹理的。分别是：NV_float_buffer,ATI_texture_float 和ARB_texture_float.每个扩展都就定义了一组自已的列举参数及其标识，如：(GL_FLOAT_R32_NV) ,( 0x8880)，在程序中使用不同的参数，可以生成不同格式的纹理对像，下面会作详细描述。

在这里，我们只对其中两个列举参数感兴趣，分别是GL_FLOAT_R32_NV和GL_FLOAT_RGBA32_NV. 前者是把每个像素保存在一个浮点值中，后者则是每个像素中的四个分量分别各占一个浮点空间。这两个列举参数，在另外两个扩展(ATI_texture_float andARB_texture_float )中也分别有其对应的名称：GL_LUMINANCE_FLOAT32_ATI,GL_RGBA_FLOAT32_ATI 和 GL_LUMINANCE32F_ARB, GL_RGBA32F_ARB 。在我看来，他们名称不同，但作用都是一样的，我想应该是多个不同的参数名称对应着一个相同的参数标识。至于选择哪一个参数名，这只是看个人的喜好，因为它们全部都既支持NV显卡也支持ATI的显卡。

最后还有一个要解决的问题就是，我们如何把CPU中的数组元素与GPU中的纹理元素一一对应起来。这里，我们采用一个比较容易想到的方法：如果纹理是LUMINANCE格式，我们就把长度为N的数组，映射到一张大小为sqrt(N) x sqrt(N)和纹理中去(这里规定N是刚好能被开方的)。如果采用RGBA的纹理格式，那么N个长度的数组，对应的纹理大小就是sqrt(N/4) x sqrt(N/4)，举例说吧，如果N=1024^2，那么纹理的大小就是512*512 。

以下的表格总结了我们上面所讨论的问题，作了一下分类，对应的GPU分别是： NVIDIA GeForce FX (NV3x), GeForce 6 and 7 (NV4x, G7x) 和 ATI.

	NV3x	NV4x, G7x (RECT)	NV4x, G7x (2D)	ATI
target	texture rectangle	texture rectangle	texture2D	texture2D and texture rectangle
format	LUMINANCE and RGBA (and RG and RGB)*
internal format	NV_float_buffer	NV_float_buffer	ATI_texture_float ARB_texture_float	ATI_texture_float ARB_texture_float

(*) Warning: 这些格式作为纹理是被支持的，但是如果作为渲染对像，就不一定全部都能够得到良好的支持(seebelow).

讲完上面的一大堆基础理论这后，是时候回来看看代码是如何实现的。比较幸运的是，当我们弄清楚了要用那些纹理对像、纹理格式、及内部格式之后，要生成一个纹理是很容易的。


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     // 
      create a new texture name 
       
     GLuint texID; glGenTextures ( 
     1 
     ,  
     & 
     texID);  
     // 
      bind the texture name to a texture target 
       
     glBindTexture(texture_target,texID);  
     // 
      turn off filtering and set proper wrap mode   
     // 
      (obligatory for float textures atm) 
       
     glTexParameteri(texture_target, GL_TEXTURE_MIN_FILTER, GL_NEAREST); glTexParameteri(texture_target, GL_TEXTURE_MAG_FILTER, GL_NEAREST); glTexParameteri(texture_target, GL_TEXTURE_WRAP_S, GL_CLAMP); glTexParameteri(texture_target, GL_TEXTURE_WRAP_T, GL_CLAMP);  
     // 
      set texenv to replace instead of the default modulate 
       
     glTexEnvi(GL_TEXTURE_ENV, GL_TEXTURE_ENV_MODE, GL_REPLACE);  
     // 
      and allocate graphics memory 
       
     glTexImage2D(texture_target,  
     0 
     , internal_format,               texSize, texSize,  
     0 
     , texture_format, GL_FLOAT,  
     0 
     );

让我们来消化一下上面这段代码的最后那个OpenGL函数，我来逐一介绍一下它每个参数：第一个参数是纹理对像，上面已经说过了；第二个参数是0，是告诉GL不要使用多重映像纹理。接下来是内部格式及纹理大小，上面也说过了，应该清楚了吧。第六个参数是也是0，这是用来关闭纹理边界的，这里不需要边界。接下来是指定纹理格式，选择一种你想要的格式就可以了。对于参数GL_FLOAT,我们不要被它表面的意思迷惑，它并不会影响我们所保存在纹理中的浮点数的精度。其实它只与CPU方面有关系，目的就是要告诉GL稍后将要传递过去的数据是浮点型的。最后一个参数还是0，意思是生成一个纹理，但现在不给它指定任何数据，也就是空的纹理。该函数的调用必须按上面所说的来做，才能正确地生成一个合适的纹理。上面这段代码，和CPU里分配内存空间的函数malloc()，功能上是很相像的，我们可能用来对比一下。

最后还有一点要提醒注意的：要选择一个适当的数据排列映射方式。这里指的就是纹理格式、纹理大小要与你的CPU数据相匹配，这是一个非常因地制宜的问题，根据解决的问题不同，其相应的处理问题方式也不同。从经验上看，一些情况下，定义这样一个映射方式是很容易的，但某些情况下，却要花费你大量的时间，一个不理想的映射方式，甚至会严重影响你的系统运行。

数组索引与纹理坐标的一一对应关系

在后面的章节中，我们会讲到如何通过一个渲染操作，来更新我们保存在纹理中的那些数据。在我们对纹理进行运算或存取的时候，为了能够正确地控制每一个数据元素，我们得选择一个比较特殊的投影方式，把3D世界映射到2D屏幕上（从世界坐标空间到屏幕设备坐标空间），另外屏幕像素与纹理元素也要一一对应。这种关系要成功，关键是要采用正交投影及合适的视口。这样便能做到几何坐标（用于渲染）、纹理坐标（用作数据输入）、像素坐标（用作数据输出）三者一一对应。有一个要提醒大家的地方：如果使用texture2D，我们则须要对纹理坐标进行适当比例的缩放，让坐标的值在0到1之间，前面有相关的说明。

为了建立一个一一对应的映射，我们把世界坐标中的Z坐标设为0，把下面这段代码加入到initFBO()这个函数中


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     // 
      viewport for 1:1 pixel=texel=geometry mapping 
       
     glMatrixMode(GL_PROJECTION); glLoadIdentity(); gluOrtho2D( 
     0.0 
     , texSize,  
     0.0 
     , texSize); glMatrixMode(GL_MODELVIEW); glLoadIdentity(); glViewport( 
     0 
     ,  
     0 
     , texSize, texSize);

使用纹理作为渲染对像

其实一个纹理，它不仅可以用来作数据输入对像，也还可以用作数据输出对像。这也是提高GPU运算效率和关键所在。通过使用 framebuffer_object这个扩展，我们可以把数据直接渲染输出到一个纹理上。但是有一个缺点：一个纹理对像不能同时被读写，也就是说，一个纹理，要么是只读的，要么就是只写的。显卡设计的人提供这样一个解释：GPU在同一时间段内会把渲染任务分派到几个通道并行运行，它们之间都是相互独立的（稍后的章节会对这个问题作详细的讨论）。如果我们允许对一个纹理同时进行读写操作的话，那我们需要一个相当复杂的逻辑算法来解决读写冲突的问题，即使在芯片逻辑上可以做到，但是对于GPU这种没有数据安全性约束的处理单元来说，也是没办法把它实现的，因为GPU并不是基von Neumann的指令流结构，而是基于数据流的结构。因此在我们的程序中，我们要用到3个纹理，两个只读纹理分别用来保存输入数组x,y。一个只写纹理用来保存运算结果。用这种方法意味着要把先前的运算公式：y = y + alpha * x 改写为：y_new = y_old + alpha * x.

FBO 扩展提供了一个简单的函数来实现把数据渲染到纹理。为了能够使用一个纹理作为渲染对像，我们必须先把这个纹理与FBO绑定，这里假设离屏帧缓冲已经被指定好了。

 
  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     glFramebufferTexture2DEXT(GL_FRAMEBUFFER_EXT,                            GL_COLOR_ATTACHMENT0_EXT,                            texture_target, texID,  
     0 
     );

第一个参数的意思是很明显的。第二个参数是定义一个绑定点（每个FBO最大可以支持四个不同的绑定点，当然，不同的显卡对这个最大绑定数的支持不一样，可以用GL_MAX_COLOR_ATTACHMENTS_EXT来查询一下）。第三和第四个参数应该清楚了吧，它们是实际纹理的标识。最后一个参数指的是使用多重映像纹理，这里没有用到，因此设为0。

为了能成功绑定一纹理，在这之前必须先用glTexImage2D()来对它定义和分配空间。但不须要包含任何数据。我们可以把FBO想像为一个数据结构的指针，为了能够对一个指定的纹理直接进行渲染操作，我们须要做的就调用OpenGL来给这些指针赋以特定的含义。

不幸的是，在FBO的规格中，只有GL_RGB和GL_RGBA两种格式的纹理是可以被绑定为渲染对像的（后来更新这方面得到了改进）,LUMINANCE这种格式的绑定有希望在后继的扩展中被正式定义使用。在我定本教程的时候，NVIDIA的硬件及驱动已经对这个全面支持，但是只能结会对应的列举参数NV_float_buffer一起来使用才行。换句话说，纹理中的浮点数的格式与渲染对像中的浮点数格式有着本质上的区别。

下面这个表格对目前不同的显卡平台总结了一下，指的是有哪些纹理格式及纹理对像是可能用来作为渲染对像的，（可能还会有更多被支持的格式，这里只关心是浮点数的纹理格式）：

	NV3x	NV4x, G7x	ATI
texture 2D, ATI/ARB_texture_float, LUMINANCE	no	no	no
texture 2D, ATI/ARB_texture_float, RGB, RGBA	no	yes	yes
texture 2D, NV_float_buffer, LUMINANCE	no	no	no
texture 2D, NV_float_buffer, RGB, RGBA	no	no	no
texture RECT, ATI/ARB_texture_float, LUMINANCE	no	no	no
texture RECT, ATI/ARB_texture_float, RGB, RGBA	no	yes	yes
texture RECT, NV_float_buffer, LUMINANCE	yes	yes	no
texture RECT, NV_float_buffer, RGB, RGBA	yes	yes	no

列表中最后一行所列出来的格式在目前来说，不能被所有的GPU移植使用。如果你想采用LUMINANCE格式，你必须使用ractangles纹理，并且只能在NVIDIA的显卡上运行。想要写出兼容NVIDIA及ATI两大类显卡的代是可能的，但只支持NV4x以上。幸运的是要修改的代码比较少，只在一个switch开关，便能实现代码的可移植性了。相信随着ARB新版本扩展的发布，各平台之间的兼容性将会得到进一步的提高，到时候各种不同的格式也可能相互调用了。

把数据从CPU的数组传输到GPU的纹理

为了把数据传输到纹理中去，我们必须绑定一个纹理作为纹理目标，并通过一个GL函数来发送要传输的数据。实际上就是把数据的首地址作为一个参数传递给该涵数，并指定适当的纹理大小就可以了。如果用LUMINANCE格式，则意味着数组中必须有texSize x texSize个元数。而RGBA格式，则是这个数字的4倍。注意的是，在把数据从内存传到显卡的过程中，是全完不需要人为来干预的，由驱动来自动完成。一但传输完成了，我们便可能对CPU上的数据作任意修改，这不会影响到显卡中的纹理数据。而且我们下次再访问该纹理的时候，它依然是可用的。在NVIDIA的显卡中，以下的代码是得到硬件加速的。


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     glBindTexture(texture_target, texID); glTexSubImage2D(texture_target, 
     0 
     , 
     0 
     , 
     0 
     ,texSize,texSize,                 texture_format,GL_FLOAT,data);

这里三个值是0的参数，是用来定义多重映像纹理的，由于我们这里要求一次把整个数组传输一个纹理中，不会用到多重映像纹理，因此把它们都关闭掉。

以上是NVIDIA显卡的实现方法，但对于ATI的显卡，以下的代码作为首选的技术。在ATI显卡中，要想把数据传送到一个已和FBO绑定的纹理中的话，只需要把OpenGL的渲染目标改为该绑定的FBO对像就可以了。

glDrawBuffer(GL_COLOR_ATTACHMENT0_EXT);
glRasterPos2i(0,0);
glDrawPixels(texSize,texSize,texture_format,GL_FLOAT,data);

第一个函数是改变输出的方向，第二个函数中我们使用了起点作为参与点，因为我们在第三个函数中要把整个数据块都传到纹理中去。

两种情况下，CPU中的数据都是以行排列的方式映射到纹理中去的。更详细地说，就是：对于RGBA格式，数组中的前四个数据，被传送到纹理的第一个元素的四个分量中，分别与R,G,B,A分量一一对应，其它类推。而对于LUMINANCE 格式的纹理，纹理中第一行的第一个元素，就对应数组中的第一个数据。其它纹理元素，也是与数组中的数据一一对应的。

把数据从GPU纹理，传输到CPU的数组

这是一个反方向的操作，那就是把数据从GPU传输回来，存放在CPU的数组上。同样，有两种不同的方法可供我们选择。传统上，我们是使用OpenGL获取纹理的方法，也就是绑定一个纹理目标，然后调用glGetTexImage()这个函数。这些函数的参数，我们在前面都有见过。

glBindTexture(texture_target,texID);
glGetTexImage(texture_target,0,texture_format,GL_FLOAT,data);

但是这个我们将要读取的纹理，已经和一个FBO对像绑定的话，我们可以采用改变渲染指针方向的技术来实现。

glReadBuffer(GL_COLOR_ATTACHMENT0_EXT);
glReadPixels(0,0,texSize,texSize,texture_format,GL_FLOAT,data);

由于我们要读取GPU的整个纹理，因此这里前面两个参数是0，0。表示从0起始点开始读取。该方法是被推荐使用的。

一个忠告：比起在GPU内部的传输来说，数据在主机内存与GPU内存之间相互传输，其花费的时间是巨大的，因此要谨慎使用。由其是从CPU到GPU的逆向传输。

在前面“ 当前显卡设备运行的问题” 中提及到该方面的问题。

一个简单的例子

现在是时候让我们回头来看一下前面要解决的问题，我强烈建议在开始一个新的更高级的话题之前，让我们先弄一个显浅的例子来实践一下。下面通过一个小的程序，尝试着使用各种不同的纹理格式，纹理对像以及内部格式，来把数据发送到GPU，然后再把数据从GPU取回来，保存在CPU的另一个数组中。在这里，两个过程都没有对数据作任何运算修该，目的只是看一下数据GPU和CPU之间相互传输，所需要使用到的技术及要注意的细节。也就是把前面提及到的几个有迷惑性的问题放在同一个程序中来运行一下。在稍后的章节中将会详细讨论如何来解决这些可能会出现的问题。

由于赶着要完成整个教程，这里就只写了一个最为简单的小程序，采用rectangle纹理、ARB_texture_float作纹理对像并且只能在NVIDIA的显卡上运行。

#include < stdio.h >

#include < stdlib.h >

#include < GL / glew.h >

#include < GL / glut.h >

int main( int argc, char ** argv) {

// 这里声明纹理的大小为：teSize;而数组的大小就必须是texSize*texSize*4

int texSize = 2;

int i;

// 生成测试数组的数据

float* data = (float*)malloc(4*texSize*texSize*sizeof(float));

float* result = (float*)malloc(4*texSize*texSize*sizeof(float));

for (i=0; i<texSize*texSize*4; i++)

data[i] = (i+1.0)*0.01F;

// 初始化OpenGL的环境

glutInit (&argc, argv);

glutCreateWindow("TEST1");

glewInit();

// 视口的比例是 1:1 pixel=texel=data 使得三者一一对应

glMatrixMode(GL_PROJECTION);

glLoadIdentity();

gluOrtho2D(0.0,texSize,0.0,texSize);

glMatrixMode(GL_MODELVIEW);

glLoadIdentity();

glViewport(0,0,texSize,texSize);

// 生成并绑定一个FBO，也就是生成一个离屏渲染对像

GLuint fb;

glGenFramebuffersEXT(1,&fb);

glBindFramebufferEXT(GL_FRAMEBUFFER_EXT,fb);

// 生成两个纹理，一个是用来保存数据的纹理，一个是用作渲染对像的纹理

GLuint tex,fboTex;

glGenTextures (1, &tex);

glGenTextures (1, &fboTex);

glBindTexture(GL_TEXTURE_RECTANGLE_ARB,fboTex);

// 设定纹理参数

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_MIN_FILTER, GL_NEAREST);

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_MAG_FILTER, GL_NEAREST);

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_WRAP_S, GL_CLAMP);

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_WRAP_T, GL_CLAMP);

// 这里在显卡上分配FBO纹理的贮存空间，每个元素的初始值是0；

glTexImage2D(GL_TEXTURE_RECTANGLE_ARB,0,GL_RGBA32F_ARB,

texSize,texSize,0,GL_RGBA,GL_FLOAT,0);

// 分配数据纹理的显存空间

glBindTexture(GL_TEXTURE_RECTANGLE_ARB,tex);

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_MIN_FILTER, GL_NEAREST);

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_MAG_FILTER, GL_NEAREST);

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_WRAP_S, GL_CLAMP);

glTexParameteri(GL_TEXTURE_RECTANGLE_ARB,

GL_TEXTURE_WRAP_T, GL_CLAMP);

glTexEnvf(GL_TEXTURE_ENV,GL_TEXTURE_ENV_COLOR,GL_DECAL);

glTexImage2D(GL_TEXTURE_RECTANGLE_ARB,0,GL_RGBA32F_ARB,

texSize,texSize,0,GL_RGBA,GL_FLOAT,0);

//把当前的FBO对像，与FBO纹理绑定在一起

glFramebufferTexture2DEXT(GL_FRAMEBUFFER_EXT,

GL_COLOR_ATTACHMENT0_EXT,

GL_TEXTURE_RECTANGLE_ARB,fboTex,0);

// 把本地数据传输到显卡的纹理上。

glBindTexture(GL_TEXTURE_RECTANGLE_ARB,tex);

glTexSubImage2D(GL_TEXTURE_RECTANGLE_ARB,0,0,0,texSize,texSize,

GL_RGBA,GL_FLOAT,data);

//--------------------begin-------------------------

//以下代码是渲染一个大小为texSize * texSize矩形，

//其作用就是把纹理中的数据，经过处理后，保存到帧缓冲中去，

//由于用到了离屏渲染，这里的帧缓冲区指的就是FBO纹理。

//在这里，只是简单地把数据从纹理直接传送到帧缓冲中，

//没有对这些流过GPU的数据作任何处理，但是如果我们会用CG、

//GLSL等高级着色语言，对显卡进行编程，便可以在GPU中

//截获这些数据，并对它们进行任何我们所想要的复杂运算。

//这就是GPGPU技术的精髓所在.

glColor4f(1.00f,1.00f,1.00f,1.0f);

glBindTexture(GL_TEXTURE_RECTANGLE_ARB,tex);

glEnable(GL_TEXTURE_RECTANGLE_ARB);

glBegin(GL_QUADS);

glTexCoord2f(0.0, 0.0);

glVertex2f(0.0, 0.0);

glTexCoord2f(texSize, 0.0);

glVertex2f(texSize, 0.0);

glTexCoord2f(texSize, texSize);

glVertex2f(texSize, texSize);

glTexCoord2f(0.0, texSize);

glVertex2f(0.0, texSize);

glEnd();

//--------------------end------------------------

// 从帧缓冲中读取数据，并把数据保存到result数组中。

glReadBuffer(GL_COLOR_ATTACHMENT0_EXT);

glReadPixels(0, 0, texSize, texSize,GL_RGBA,GL_FLOAT,result);

// 显示最终的结果

printf("Data before roundtrip:");

for (i=0; i<texSize*texSize*4; i++)

printf("%f",data[i]);

printf("Data after roundtrip:");

for (i=0; i<texSize*texSize*4; i++)

printf("%f",result[i]);

// 释放本地内存

free(data);

free(result);

// 释放显卡内存

glDeleteFramebuffersEXT (1,&fb);

glDeleteTextures (1,&tex);

glDeleteTextures(1,&fboTex);

return 0;

}

你可以在这里下载到为ATI显卡写的另一个版本。

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
              
     -------------- 
     CPU 
     ---------------- 
            
     ------------- 
     GPU 
     ------------ 
               
     | 
                                     
     | 
            
     | 
                                
     | 
               
     | 
        data arr:                    
     | 
            
     | 
       texture:                 
     | 
               
     | 
         [][][][][][][][][]      
     --------------> 
      [][][]                 
     | 
               
     | 
                                     
     | 
            
     | 
         [][][]                 
     | 
               
     | 
                                     
     | 
            
     | 
         [][][]                 
     | 
               
     | 
                                     
     | 
            
     | 
                /              
     | 
               
     | 
        result:                      
     | 
            
     | 
                   FBO:         
     | 
               
     | 
         [][][][][][][][][]          
     | 
            
     | 
                   [][][]       
     | 
               
     | 
                                    
     <----------------- 
          [][][]       
     | 
               
     | 
                                     
     | 
            
     | 
                   [][][]       
     | 
               
     |-------------------------------| 
            
     |--------------------------|

以上代码是理解GPU编程的基础，如果你完全看得懂，并且能对这代码作简单的修改运用的话，那恭喜你，你已经向成功迈进了一大步，并可以继续往下看，走向更深入的学习了。但如看不懂，那回头再看一编吧。

GPGPU 概念 2:内核(Kernels) = 着色器(shaders)

在这一章节中，我们来讨论GPU和CPU两大运算模块最基本的区别，以及理清一些算法和思想。一但我们弄清楚了GPU是如何进行数据并行运算的，那我们要编写一个自已的着色程序，还是比较容易的。

面向循环的CPU运算 vs. 面向内核的GPU数据并行运算

让我们来回忆一下我们所想要解决的问题：y = y + alpha* x; 在CPU上，通常我们会使用一个循环来遍历数组中的每个元素。如下：


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     for 
      ( 
     int 
      i 
     = 
     0 
     ; i 
     < 
     N; i 
     ++ 
     )      dataY[i]  
     = 
      dataY[i]  
     + 
      alpha  
     * 
      dataX[i];

每一次的循环，都会有两个层次的运算在同时运作：在循环这外，有一个循环计数器在不断递增，并与我们的数组的长度值作比较。而在循环的内部，我们利用循环计数器来确定数组的一个固定位置，并对数组该位置的数据进行访问，在分别得到两个数组该位置的值之后，我们便可以实现我们所想要的运算：两个数组的每个元素相加了。这个运算有一个非常重要的特点：那就是我们所要访问和计算的每个数组元数，它们之间是相互独立的。这句话的意思是：不管是输入的数组，还是输出结果的数组，对于同一个数组内的各个元素是都是相互独立的，我们可以不按顺序从第一个算到最后一个，可先算最后一个，再算第一个，或在中间任意位置选一个先算，它得到的最终结果是不变的。如果我们有一个数组运算器，或者我们有N个CPU的话，我们便可以同一时间把整个数组给算出来，这样就根本不需要一个外部的循环。我们把这样的示例叫做SIMD(single instruction multiple data)。现在有一种技术叫做“partial loop unrolling”就是让允许编译器对代码进行优化，让程序在一些支持最新特性（如：SSE , SSE2）的CPU上能得到更高效的并行运行。

在我们这个例子中，输入数数组的索引与输出数组的索引是一样，更准确地说，是所有输入数组下标，都与输出数组的下标是相同的，另外，在对于两个数组，也没有下标的错位访问或一对多的访问现像，如：y[i] = -x[i-1] + 2*x[[i] - x[i+1] 。这个公式可以用一句不太专业的语言来描术：“组数Y中每个元素的值等于数组X中对应下标元素的值的两倍，再减去该下标位置左右两边元素的值。”

在这里，我们打算使用来实现我们所要的运算的GPU可编程模块，叫做片段管线（fragment pipeline），它是由多个并行处理单元组成的，在GeFore7800GTX中，并行处理单元的个数多达24个。在硬件和驱动逻辑中，每个数据项会被自动分配到不同的渲染线管线中去处理，到底是如何分配，则是没法编程控制的。从概念观点上看，所有对每个数据顶的运算工作都是相互独立的，也就是说不同片段在通过管线被处理的过程中，是不相互影响的。在前面的章节中我们曾讨论过，如何实现用一个纹理来作为渲染目标，以及如何把我们的数组保存到一个纹理上。因此这里我们分析一下这种运算方式：片段管线就像是一个数组处理器，它有能力一次处理一张纹理大小的数据。虽然在内部运算过程中，数据会被分割开来然后分配到不同的片段处理器中去，但是我们没办法控制片段被处理的先后顺序，我们所能知道的就是“地址”，也就是保存运算最终结果的那张纹理的纹理坐标。我们可能想像为所有工作都是并行的，没有任何的数据相互依赖性。这就是我们通常所说的数据并行运算（data-paralel computing）。

现在，我们已经知道了解决问题的核心算法，我们可以开始讨论如何用可编程片段管线来编程实现了。内核，在GPU中被叫做着色器。所以，我们要做的就是写一个可能解决问题的着色器，然后把它包含在我们的程序中。在本教程程中，我们会分别讨论如何用CG着色语言及GLSL着色语言来实现，接下来两个小节就是对两种语言实现方法的讨论，我们只要学会其中一种方法就可以了，两种语言各有它自已的优缺点，至于哪个更好一点，则不是本教程所要讨论的范围。

用CG着色语言来编写一个着色器

为了用CG语言来着色渲染，我们首先要来区分一下CG着色语言和CG运行时函数，前者是一门新的编程语言，所写的程序经编译后可以在GPU上运行，后者是C语言所写的一系列函数，在CPU上运算，主要是用来初始化环境，把数据传送给GPU等。在GPU中，有两种不同的着色，对应显卡渲染流水线的两个不同的阶段，也就是顶点着色和片段着色。本教程中，顶点着色阶段，我们采用固定渲染管线。只在片段着色阶段进行编程。在这里，使用片段管线能更容易解决我们的问题，当然，顶点着色也会有它的高级用途，但本文不作介绍。另外，从传统上讲，片段着色管线提供更强大的运算能力。

让我们从一段写好了的CG着色代码开始。回忆一下CPU内核中包含的一些算法：在两个包含有浮点数据的数组中查找对应的值。我们知道在GPU中纹理就等同于CPU的数组，因此在这里我们使用纹理查找到代替数组查找。在图形运算中，我们通过给定的纹理坐标来对纹理进行采样。这里有一个问题，就是如何利用硬件自动计算生成正确的纹理坐标。我们把这个问题压后到下面的章节来讨论。为了处理一些浮点的常量，我们有两种处理的方法可选：我们可以把这些常量包含在着色代码代中，但是如果要该变这些常量的值的话，我们就得把着色代码重新编译一次。另一种方法更高效一点，就是把常量的值作为一个uniform参数传递给GPU。uniform参数的意思就是：在整个渲染过程中值不会被改变的。以下代码就是采用较高较的方法写的。

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     float 
      saxpy (       float2 coords : TEXCOORD0,       uniform sampler2D textureY,       uniform sampler2D textureX,       uniform  
     float 
      alpha ) : COLOR         
     {           float result;           float yval=y_old[i];                         float y = tex2D(textureY,coords);           float xval=x[i];                             float x = tex2D(textureX,coords);           y_new[i]=yval+alpha*xval;                    result = y + alpha * x;           return result; }

从概念上讲，一个片段着色器，就是像上像这样的一段小程序，这段代码在显卡上会对每个片段运行一编。在我们的代码中，程序被命名为saxpy。它会接收几个输入参数，并返回一个浮点值。用作变量复制的语法叫做语义绑定(semantics binding)：输入输出参数名称是各种不同的片段静态变量的标识，在前面的章节中我们把这个叫“地址”。片段着色器的输出参数必须绑定为COLOR语义，虽然这个语义不是很直观，因为我们的输出参数并不是传统作用上颜色，但是我们还是必须这样做。绑定一个二分量的浮点元组(tuple ,float2)到TEXCOORD0语义上，这样便可以在运行时为每个像素指定一对纹理坐标。对于如何在参数中定义一个纹理样本以及采用哪一个纹理采样函数，这就要看我们种用了哪一种纹理对像，参考下表：

	texture2D	texture rectangle
样本定义	uniform sampler2D	uniform samplerRECT
纹理查找函数	tex2D(name, coords)	texRECT(name, coords)

如果我们使用的是四通道的纹理而不是LUMINANCE格式的纹理，那们只须把上面代码中的用来保存纹理查询结果的浮点型变量改为四分量的浮点变量（float4 ）就可以了。由于GPU具有并行运算四分量数的能力，因此对于使用了rectangle为对像的RGBA格式纹理，我们可以采用以下代码：

float4 saxpy (

float2 coords : TEXCOORD0,

uniform samplerRECT textureY,

uniform samplerRECT textureX,

uniform float alpha ) : COLOR

{

float4 result;

float4 y = texRECT(textureY,coords);

float4 x = texRECT(textureX,coords);

result = y + alpha*x;

// equivalent: result.rgba=y.rgba+alpha*x.rgba

// or: result.r=y.r+alpha*x.y; result.g=...

return result;

}

我们可以把着色代码保存在字符数组或文本文件中，然后通过OpenGL的CG运行时函数来访问它们。

建立CG运行环境

在这一小节，中描术了如何在OpenGL应用程序中建立Cg运行环境。首先，我们要包含CG的头文件(#include <cg/cggl.h>)，并且把CG的库函数指定到编译连接选项中，然后声明一些变量。

// Cg vars

CGcontext cgContext;

CGprofile fragmentProfile;

CGprogram fragmentProgram;

CGparameter yParam, xParam, alphaParam;

char * program_source = " float saxpy( [....] return result; } " ;

CGcontext 是一个指向CG运行时组件的入口指针，由于我们打算对片段管线进行编程，因此我们要一个 fragment profile，以及一个程序 container。为了简单起见，我们还声明了三个句柄，分别对应了着色程序中的三个没有语义的入口参数。我们用一个全局的字符串变量来保存前面所写好的着色代码。现在就把所有的CG初始化工作放在一个函数中完成。这里只作了最简单的介绍，详细的内容可以查看CG手册，或者到 Cg Toolkit page.网页上学习一下。

译注：对于CG入门，可以看一下《CG编程入门》这篇文章：http://www.physdev.com/phpbb/cms_view_article.php?aid=7

void initCG( void ) {

// set up Cg

cgContext = cgCreateContext();

fragmentProfile = cgGLGetLatestProfile(CG_GL_FRAGMENT);

cgGLSetOptimalOptions(fragmentProfile);

// create fragment program

fragmentProgram = cgCreateProgram (

cgContext,CG_SOURCE,program_source,

fragmentProfile,"saxpy",NULL);

// load program

cgGLLoadProgram (fragmentProgram);

// and get parameter handles by name

yParam = cgGetNamedParameter (fragmentProgram,"textureY");

xParam = cgGetNamedParameter (fragmentProgram,"textureX");

alphaParam = cgGetNamedParameter (fragmentProgram,"alpha");

}

用OpenGL着色语言来编写一个着色器

使用OpenGL的高级着色语言，我们不需要另外引入任何的头文件或库文件，因因它们在安装驱动程序的时候就一起被建立好了。三个OpenGL的扩展：(ARB_shader_objects,ARB_vertex_shader 和ARB_fragment_shader)定义了相关的接口函数。它的说明书(specification )中对语言本身作了定义。两者，API和GLSL语言，现在都是OpenGL2.0内核的一个重要组成部份。但是如果我们用的是OpenGL的老版本，就要用到扩展。

我们为程序对像定义了一系列的全局变量，包括着色器对像及数据变量的句柄，通过使用这些句柄，我们可以访问着色程序中的变量。前面两个对像是简单的数据容器，由OpenGL进行管理。一个完整的着色程序是由顶点着色和片段着色两大部份组成的，每部分又可以由多个着色程序组成。


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     // 
      GLSL vars 
       
     GLhandleARB programObject; GLhandleARB shaderObject; GLint yParam, xParam, alphaParam;

编写着色程序和使用Cg语言是相似的，下面提供了两个GLSL的例子，两个主程序的不同之处在于我们所采用的纹理格式。变量的类型入关键字与CG有很大的不同，一定要按照OpenGL的定义来写。


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     // 
      shader for luminance data          |    
     // 
      shader for RGBA data   
     // 
      and texture rectangles             |    
     // 
      and texture2D 
       
                                            
     | 
      uniform samplerRect textureY;          
     | 
        uniform sampler2D textureY; uniform samplerRect textureX;          
     | 
        uniform sampler2D textureX; uniform  
     float 
      alpha;                   
     | 
        uniform  
     float 
      alpha;                                        
     | 
       
     void 
      main( 
     void 
     )  
     {                     |    void main(void) {     float y = textureRect(            |       vec4 y = texture2D(            textureY,                  |              textureY,             gl_TexCoord[0].st).x;      |             gl_TexCoord[0].st);     float x = textureRect(            |       vec4 x = texture2D(            textureX,                  |              textureX            gl_TexCoord[0].st).x;      |             gl_TexCoord[0].st);     gl_FragColor.x =                  |       gl_FragColor =              y + alpha*x;              |              y + alpha*x; }                                     |   }

下面代码就是把所有对GLSL的初始化工作放在一个函数中实现，GLSL API是被设计成可以模拟传统的编译及连接过程，更多的细节，请参考橙皮书(Orange Book)，或者查找一些GLSL的教程来学习一下，推荐到Lighthouse 3D's GLSL tutorial 网站上看一下

void initGLSL( void ) {

// create program object

programObject = glCreateProgramObjectARB();

// create shader object (fragment shader) and attach to program

shaderObject = glCreateShaderObjectARB(GL_FRAGMENT_SHADER_ARB);

glAttachObjectARB (programObject, shaderObject);

// set source to shader object

glShaderSourceARB(shaderObject, 1, &program_source, NULL);

// compile

glCompileShaderARB(shaderObject);

// link program object together

glLinkProgramARB(programObject);

// Get location of the texture samplers for future use

yParam = glGetUniformLocationARB(programObject, "textureY");

xParam = glGetUniformLocationARB(programObject, "textureX");

alphaParam = glGetUniformLocationARB(programObject, "alpha");

}

GPGPU 概念3：运算 = 绘图

在这一章节里，我们来讨论一下如何把本教程前面所学到的知识拼凑起来，以及如何使用这些知识来解决前面所提出的加权数组相加问题：y_new =y_old +alpha *x 。关于执行运算的部份，我们把所有运算都放在performComputation()这个函数中实现。一共有四个步骤：首先是激活内核，然后用着色函数来分配输入输出数组的空间，接着是通过渲染一个适当的几何图形来触发GPU的运算，最后一步是简单验证一下我们前面所列出的所有的基本理论。

准备好运算内核

使用CG运行时函数来激活运算内核就是显卡着色程序。首先用enable函数来激活一个片段profile，然后把前面所写的着色代码传送到显卡上并绑定好。按规定，在同一时间内只能有一个着色器是活动的，更准确的说，是同一时间内，只能分别激活一个顶点着色程序和一个片段着色程序。由于本教程中采用了固定的顶点渲染管线，所以我们只关注片段着色就行了，只需要下面两行代码便可以了。


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     // 
      enable fragment profile 
       
     cgGLEnableProfile(fragmentProfile);  
     // 
      bind saxpy program 
       
     cgGLBindProgram(fragmentProgram);

如果使用的是GLSL着色语言，这一步就更容易实现了，如果我们的着色代码已以被成功地编译连接，那么剩下我们所需要做的就只是把程序作为渲染管线的一部分安装好，代码如下：

glUseProgramObjectARB(programObject);

建立用于输入的数组和纹理

在CG环境中，我们先要把纹理的标识与对应的一个uniform样本值关联起来，然后激活该样本。这样该纹理样本便可以在CG中被直接使用了。

// enable texture y_old (read-only)

cgGLSetTextureParameter(yParam, y_oldTexID);

cgGLEnableTextureParameter(yParam);

// enable texture x (read-only)

cgGLSetTextureParameter(xParam, xTexID);

cgGLEnableTextureParameter(xParam);

// enable scalar alpha

cgSetParameter1f(alphaParam, alpha);

但在GLSL中，我们必须把纹理与不同的纹理单元绑定在一起（在CG中，这部分由程序自动完成），然后把这些纹理单元传递给我们的uniform参数。

// enable texture y_old (read-only)

glActiveTexture(GL_TEXTURE0);

glBindTexture(textureParameters.texTarget,yTexID[readTex]);

glUniform1iARB(yParam, 0 ); // texunit 0

// enable texture x (read-only)

glActiveTexture(GL_TEXTURE1);

glBindTexture(textureParameters.texTarget,xTexID);

glUniform1iARB(xParam, 1 ); // texunit 1

// enable scalar alpha

glUniform1fARB(alphaParam,alpha);

建立用于输出的纹理及数组

定义用于输出的纹理，从本质上讲，这和把数据传输到一个FBO纹理上的操作是一样的，我们只需要指定OpenGL函数参数的特定意义就可以了。这里我们只是简单地改变输出的方向，也就是，把目标纹理与我们的FBO绑定在一起，然后使用标准的GL扩展函数来把该FBO指为渲染的输出目标。

// attach target texture to first attachment point

glFramebufferTexture2DEXT(GL_FRAMEBUFFER_EXT,

GL_COLOR_ATTACHMENT0_EXT,

texture_target, y_newTexID, 0 );

// set the texture as render target

glDrawBuffer (GL_COLOR_ATTACHMENT0_EXT);

准备运算

让们暂时先来回顾一下到目前为止，我们所做过了的工作：我们实现了目标像素、纹理坐标、要绘制的图形三者元素一一对应的关系。我们还写好了一个片段着色器，用来让每个片段渲染的时候都可以运行一次。现在剩下来还要做的工作就是：绘制一个“合适的几何图形” ，这个合适的几何图形，必须保证保存在目标纹理中的数据每个元素就会去执行一次我们的片段着色程序。换句话来说，我们必须保证纹理中的每个数据顶在片段着色中只会被访一次。只要指定好我们的投影及视口的设置，其它的工作就非常容易：我们所需要的就只是一个刚好能覆盖整个视口的填充四边形。我们定义一个这样的四边形，并调用标准的OpenGL函数来对其进行渲染。这就意味着我们要直接指定四边形四个角的顶点坐标，同样地我们还要为每个顶点指定好正确的纹理坐标。由于我们没有对顶点着色进行编程，程序会把四个顶点通过固定的渲染管线传输到屏幕空间中去。光册处理器（一个位于顶点着色与片段着色之间的固定图形处理单元）会在四个顶点之间进行插值处理，生成新的顶点来把整个四边形填满。插值操作除了生成每个插值点的位置之外，还会自动计算出每个新顶点的纹理坐标。它会为四边形中每个像素生成一个片段。由于我们在写片段着色器中绑定了相关的语义，因此插值后的片段会被自动发送到我们的片段着色程序中去进行处理。换句话说，我们渲染的这个简单的四边形，就可以看作是片段着色程序的数据流生成器。由于目标像素、纹理坐标、要绘制的图形三者元素都是一一对应的，从而我们便可以实现：为数组每个输出位置触发一次片段着色程序的运行。也就是说通过渲染一个带有纹理的四边形，我们便可以触发着色内核的运算行，着色内核会为纹理或数组中的每个数据项运行一次。

使用 texture rectangles 纹理坐标是与像素坐标相同的，我样使用下面一小段代码便可以实现了。

// make quad filled to hit every pixel/texel

glPolygonMode(GL_FRONT,GL_FILL);

// and render quad

glBegin(GL_QUADS);

glTexCoord2f( 0.0 , 0.0 );

glVertex2f( 0.0 , 0.0 );

glTexCoord2f(texSize, 0.0 );

glVertex2f(texSize, 0.0 );

glTexCoord2f(texSize, texSize);

glVertex2f(texSize, texSize);

glTexCoord2f( 0.0 , texSize);

glVertex2f( 0.0 , texSize);

glEnd();如果使用 texture2D ，就必须单位化所有的纹理坐标，等价的代码如下：

// make quad filled to hit every pixel/texel

glPolygonMode(GL_FRONT,GL_FILL);

// and render quad

glBegin(GL_QUADS);

glTexCoord2f( 0.0 , 0.0 );

glVertex2f( 0.0 , 0.0 );

glTexCoord2f( 1.0 , 0.0 );

glVertex2f(texSize, 0.0 );

glTexCoord2f( 1.0 , 1.0 );

glVertex2f(texSize, texSize);

glTexCoord2f( 0.0 , 1.0 );

glVertex2f( 0.0 , texSize);

glEnd();

这里提示一下那些做高级应用的程序员：在我们的着色程序中，只用到了一组纹理坐标，但是我们也可以为每个顶点定义多组不同的纹理坐标，相关的更多细节，可以查看一下 glMultiTexCoord()函数的使用。

GPGPU 概念 4: 反馈

当运算全部完成之后，的、得到的结果会被保存在目标纹理y_new中。

多次渲染传递.

在一些通用运算中，我们会希望把前一次运算结果传递给下一个运算用来作为后继运算的输入变量。但是在GPU中，一个纹理不能同时被读写，这就意味着我们要创建另外一个渲染通道，并给它绑定不同的输入输出纹理，甚至要生成一个不同的运算内核。有一种非常重要的技术可以用来解决这种多次渲染传递的问题，让运算效率得到非常好的提高，这就是“乒乓”技术。

关于乒乓技术

乒乓技术，是一个用来把渲染输出转换成为下一次运算的输入的技术。在本文中（y_new =y_old +alpha *x），这就意味我们要切换两个纹理的角色，y_new 和y_old 。有三种可能的方法来实现这种技术（看一下以下这篇论文Simon Green's FBO slides ，这是最经典的资料了）：

为每个将要被用作渲染输出的纹理指定一个绑定点，并使用函数 glBindFramebufferEXT()来为每个渲染通道绑定一个不同的FBO.
只使用一个FBO,但每次通道渲染的时候，使用函数 glBindFramebufferEXT()来重新绑定渲染的目标纹理。
使用一个FBO和多个绑定点，使用函数 glDrawBuffer()来交换它们。

由于每个FBO最多有4个绑定点可以被使用，而且，最后一种方法的运算是最快的，我们在这里将详细解释一下，看看我们是如何在两个不同的绑定点之间实现“乒乓” 的。

要实现这个，我们首先需要一组用于管理控制的变量。

// two textures identifiers referencing y_old and y_new

GLuint yTexID[ 2 ];

// ping pong management vars

int writeTex = 0 ;

int readTex = 1 ;

GLenum attachmentpoints[] = { GL_COLOR_ATTACHMENT0_EXT,

GL_COLOR_ATTACHMENT1_EXT

} ;

在运算其间，我们只需要做的就是给内核传递正确的参数值，并且每次运算都要交换一次组组的索引值：

// attach two textures to FBO

glFramebufferTexture2DEXT(GL_FRAMEBUFFER_EXT,

attachmentpoints[writeTex],

texture_Target, yTexID[writeTex], 0 );

glFramebufferTexture2DEXT(GL_FRAMEBUFFER_EXT,

attachmentpoints[readTex],

texture_Target, yTexID[readTex], 0 );

// enable fragment profile, bind program [...]

// enable texture x (read-only) and uniform parameter [...]

// iterate computation several times

for ( int i = 0 ; i < numIterations; i ++ ) {

// set render destination

glDrawBuffer (attachmentpoints[writeTex]);

// enable texture y_old (read-only)

cgGLSetTextureParameter(yParam, yTexID[readTex]);

cgGLEnableTextureParameter(yParam);

// and render multitextured viewport-sized quad

// swap role of the two textures (read-only source becomes

// write-only target and the other way round):

swap();

}

把所有东西放在一起

对本文附带源代码的一个简要说明

在附带的代码例子中，使用到了本文所有阐述过的所有概念，主要实现了以下几个运算：

为每个数组生成一个浮点的纹理。
把初始化的数据传输到纹理中去。
使用CG或者GLSL来生成一个片段着色器。
一个多次重复运算的模块，主要是用来演试“乒乓”技术。
把最终的运算结果返回到主内存中。
把结果与CPU的参考结果进行比较。

执行过行中的可变化部份

在代码中，我们使用了一系列的结构体来保存各种可能的参数，主要是为了方便OpenGL的调用，例如：不同类型的浮点纹理扩展，不同的纹理格式，不同的着色器之间的细微差别，等等。下面这段代码就是这样一个结构体的示例，采用LUMINANCE格式，RECTANGLES纹理，及NV_float_buffer的扩展。

rect_nv_r_32.name = " TEXRECT - float_NV - R - 32 " ;

rect_nv_r_32.texTarget = GL_TEXTURE_RECTANGLE_ARB;

rect_nv_r_32.texInternalFormat = GL_FLOAT_R32_NV;

rect_nv_r_32.texFormat = GL_LUMINANCE;

rect_nv_r_32.shader_source = " float saxpy ( "

" in float2 coords : TEXCOORD0, "

" uniform samplerRECT textureY, "

" uniform samplerRECT textureX, "

" uniform float alpha ) : COLOR { "

" float y = texRECT (textureY, coords); "

" float x = texRECT (textureX, coords); "

" return y+alpha*x; } " ;

为了给不同的情况取得一个合适的工作版本，我们只须要查找和替换就可以了。或者使用第二个命令行参数如： rect_nv_r_32。在应用程序中，一个全局变量 textureParameters 指向我们实现要使用的结构体。

命令行参数

在程序中，使用命令行参数来对程序进行配置。如果你运行该程序而没带任何参数的话，程序会输出一个对各种不同参数的解释。提醒大家注意的是：本程序对命令行参数的解释是不稳定的，一个不正确的参数有可能会造成程序的崩溃。因此我强烈建义大家使用输出级的参数来显示运算的结果，这样可以降低出现问题的可能性，尤其是当你不相信某些运算错误的时候。请查看包含在示例中的批处理文件。

测试模式

本程序可以用来对一个给定的GPU及其驱动的结合进行测试，主要是测试一下，看看哪种内部格式及纹理排列是可以在FBO扩展中被组合在一起使用的。示例中有一个批处理文件叫做：run_test_*.bat，是使用各种不同的命令行参数来运行程序，并会生成一个报告文件。如果是在LINUX下，这个文件也可能当作一个shell脚本来使用，只需要稍作修改就可以了。这ZIP文档中包含有对一些显卡测试后的结果。

基准模式

这种模式被写进程序中，完全是为了好玩。它可以对不同的问题产成一个运算时序，并在屏幕上生成MFLOP/s速率图，和其它的一些性能测试软件一样。它并不代表GPU运算能力的最高值，只是接近最高值的一种基准性能测试。想知道如何运行它的话，请查看命令行参数。

附言

简单对比一下Windows 和 Linux，NVIDIA 和 ATI 之间的差别

对于NVIDIA的显卡，不管是Windows还是Linux，它们都提供了相同的函数来实现本教程中的例子。但如果是ATI的显卡，它对LINUX的支持就不是很好。因此如果是ATI显卡，目前还是建义在Windows下使用。

看一看这片相关的文章 table summarizing renderable texture formats on various hardware.

本文中提供下载的源代码，是在NV4X以上的显卡上编译通过的。对于ATI的用户，则要作以下的修改才行：在transferToTexture() 函数中，把NVIDIA相应部份的代码注释掉，然使用ATI版本的代码，如这里所描述的。

Cg 1.5 combined with the precompiled freeglut that ships with certain Linus distributions somehow breaks "true offscreen rendering" since a totally meaningless empty window pops up. There are three workarounds: Live with it. Use "real GLUT" instead of freeglut. Use plain X as described in the OpenGL.org wiki (just leave out the mapping of the created window to avoid it being displayed).

问题及局限性

对于ATI显卡，当我们把数据传送到纹理中去时，如果使用 glTexSubImage2D()，会产生一个非常奇怪的问题：就是原本是RGBA排列的数据，会被改变为BGRA格式。这是一个已得到确认的BUG，希望在以后的版本中能得到修正，目前只能用 glDrawPixels() 来代替。
而对于NV3X系列显卡，如果想用 glDrawPixels() ，则要求一定要在GPU中绑定一个着色程序。因此这里用 glTexSubImage()函数代替（其实对于所有的NVIDIA 的显卡，都推荐使用该函数）。
ATI显卡，在GLSL中不支持rectangles纹理采样，甚至这样的着色代码没法被编译通过。 samplerRect 或 sampler2DRect 被指定为保留的关键字， ARB_texture_rextangle的扩展说明书中得到定义，但驱动没有实现对它们的支持。可以用CG来代替。
在ATI中，当我们使用 glDrawPixels() 下载一个纹理的时候，如果纹理是被enable的，则会导致下载失败，这不是一个BUG，但是也是一个有争议性的问题，因为这样会使程序难以调试。
对于NVIDIA的显卡，我们不能把纹理渲染到纹理最大值的最后一行中去。也就是说，尽管我们用函数 glGetIntegerv(GL_MAX_TEXTURE_SIZE,&maxtexsize); 得到的值是4096，但是你也只能渲染一张4095 x 4095 纹理。这是一个已知的BUG，同样也希望以后能得到修正。

检查OpenGL的错误

高度推荐大家在代码中经常使用以下函数来检测OpenGL运行过程中产生的错误。


  
  
  
  
  

  

  
   
   
   
   
   
   
   
   
   
 
   
 
   
    
    
    
     
      
     void 
      checkGLErrors( 
     const 
       
     char 
       
     * 
     label)  
     {     GLenum errCode;     const GLubyte *errStr;     if ((errCode = glGetError()) != GL_NO_ERROR) {         errStr = gluErrorString(errCode);         printf("OpenGL ERROR: ");         printf((char*)errStr);         printf("(Label: ");         printf(label);         printf(") .");     } }

检查FBO中的错误

EXT_framebuffer_object 扩展，定义了一个很好用的运行时Debug函数。这里只列出了它的一些常见的反回值作参考，要详细解释这些返回信息，请查看规格说明书的framebuffer completeness 部分。

bool checkFramebufferStatus() {

GLenum status;

status=(GLenum)glCheckFramebufferStatusEXT(GL_FRAMEBUFFER_EXT);

switch(status) {

case GL_FRAMEBUFFER_COMPLETE_EXT:

return true;

case GL_FRAMEBUFFER_INCOMPLETE_ATTACHMENT_EXT:

printf("Framebuffer incomplete,incomplete attachment");

return false;

case GL_FRAMEBUFFER_UNSUPPORTED_EXT:

printf("Unsupported framebuffer format");

return false;

case GL_FRAMEBUFFER_INCOMPLETE_MISSING_ATTACHMENT_EXT:

printf("Framebuffer incomplete,missing attachment");

return false;

case GL_FRAMEBUFFER_INCOMPLETE_DIMENSIONS_EXT:

printf("Framebuffer incomplete,attached images

must have same dimensions");

return false;

case GL_FRAMEBUFFER_INCOMPLETE_FORMATS_EXT:

printf("Framebuffer incomplete,attached images

must have same format");

return false;

case GL_FRAMEBUFFER_INCOMPLETE_DRAW_BUFFER_EXT:

printf("Framebuffer incomplete,missing draw buffer");

return false;

case GL_FRAMEBUFFER_INCOMPLETE_READ_BUFFER_EXT:

printf("Framebuffer incomplete,missing read buffer");

return false;

}

return false;

}

检查CG的错误

在CG中检查错误有一些细微的不同，一个自写入的错误处理句柄被传递给CG的错误处理回调函数。

// register the error callback once the context has been created

cgSetErrorCallback(cgErrorCallback);

// callback function

void cgErrorCallback( void ) {

CGerror lastError = cgGetError();

if(lastError) {

printf(cgGetErrorString(lastError));

printf(cgGetLastListing(cgContext));

}

检查GLSL的错误

使用以下的函数来查看编译的结果：

/**

* copied from

* http://www.lighthouse3d.com/opengl/glsl/index.php?oglinfo

void printInfoLog(GLhandleARB obj) {

int infologLength = 0;

int charsWritten = 0;

char *infoLog;

glGetObjectParameterivARB(obj,

GL_OBJECT_INFO_LOG_LENGTH_ARB,

&infologLength);

if (infologLength > 1) {

infoLog = (char *)malloc(infologLength);

glGetInfoLogARB(obj, infologLength,

&charsWritten, infoLog);

printf(infoLog);

printf("");

free(infoLog);

}

大多数情况下，你可以使用以上查询函数，详细内容可以查看一下GLSL的规格说明书。还有另一个非常重要的查询函数，是用来检查程序是否可以被连接：

GLint success;

glGetObjectParameterivARB(programObject,

GL_OBJECT_LINK_STATUS_ARB,

& success);

if ( ! success) {

printf("Shader could not be linked!");

}

感谢

Writing this tutorial would have been impossible without all contributors at theGPGPU.org forums. They answered all my questions patiently, and without them, starting to work in the GPGPU field (and consequently, writing this tutorial) would have been impossible. I owe you one, guys!

如果没有GPGPU.org论坛所作出的贡献，可能也就没有这篇论文的产生。他们非常耐心地回答了我所有的问题，在大家的帮助下，我才踏入GPGPU的大门，也因此才有了这篇文章，感谢多位朋友：

Andrew Corrigan, Wojciech Jaskowski, Matthias Miemczyk, Stephan Wagner and especially Thomas Rohkämper were invaluably helpful in proof-reading the tutorial and beta-testing the implementation. Thanks a lot!

版权及声明

本译文可以自由转载，要求保留原作者信息

英文原文： http://www.mathematik.uni-dortmund.de/~goeddeke/gpgpu/tutorial.html

The example code for this tutorial is released under a weakened version of thezlib/libPNG licence which basically says: Feel free to use the code in any way you want, but do not blame me if it does not work.

This software is provided 'as-is', without any express or implied
warranty.  In no event will the author be held liable for any 
damages arising from the use of this software. 

Permission is granted to anyone to use this software for any 
purpose, including commercial applications, and to alter it 
and redistribute it freely.

Feedback (preferably by e-mail) is appreciated!

你可能感兴趣的:(编程,buffer,扩展,语言,float,GPGPU)

【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
梁文道《尽头:怎样是好的阅读和书写》片段白夜书摘
1、写小说的人，有时会强烈地感到一种现实的召唤，想去面对和回应现实。这时他们会觉得自己正站在时代中心，就像黑格尔说的，要把时代精神掌握在自己的小说（不是哲学）里面。但是这也很危险，当一个作家像一个时代那样书写，可能就会出现问题了。2、文字是远比语言大块而且湿冷的木头，又距离我们内心的火花稍远，不容易瞬间点燃起来，这处隙缝，给了我们回身的余地，可以再多看一下想一下设身处地一下；人类过往这最后五千年，
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
「豆包Marscode体验官」 | 云端 IDE 启动 & Rust 体验张风捷特烈 ide rust 开发语言后端
theme:cyanosis我正在参加「豆包MarsCode初体验」征文活动MarsCode可以看作一个运行在服务端的远程VSCode开发环境。对于我这种想要学习体验某些语言，但不想在电脑里装环境的人来说非常友好。本文就来介绍一下在MarsCode里，我的体验rust开发体验。一、MarsCode是什么它的本质是:提供代码助手和云端IDE服务的web网站，可通过下面的链接访问https://www
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

GPU深度发掘(一)::GPGPU数学基础教程