pizi0475

浅析DirectX11技术带给图形业界的改变

前言：2009年10月23日，微软高调发布了其最新一代操作系统——Windows7，这款操作系统相对于之前的Vista系统有相当大的进步，特别核心执行效率方面得到显著改善，并且加入了DirectX 11等新技术。微软此次推出全新图形API——DirectX 11目的很明确，就是能够充分利用显卡资源，旨在游戏以及通用计算方面达到更高的执行效率。今天本文就带大家一起分析DirectX 11技术带给图形业界和游戏玩家的双重体验。同时也让更多人了解到自己是否需要一款支持DirectX 11的显卡，具体选择哪些显卡最为合适。

● DirectX对GPU发展带来的影响

DirectX并不是一个单纯的图形API，它是由微软公司开发的用途广泛的API，它包含有Direct Graphics(Direct 3D+Direct Draw)、Direct Input、Direct Play、Direct Sound、Direct Show、Direct Setup、Direct Media Objects等多个组件，它提供了一整套的多媒体接口方案。只是其在3D图形方面的优秀表现，让它的其它几个组件几乎被人们忽略。

Direct Graphics的优秀表现和微软的影响力，令无数硬件厂商生畏并不断遵循其变化来开发新的图形处理器架构。同时ATI和NVIDIA两家厂商之所以至今仍不断跟随DirectX的步伐，是意识到任何游戏相关的硬件厂商要是被微软抛弃，那么其后果是不堪设想的。

大家都在畅想DirectX技术的未来

在过去的数次DirectX更替中，有几次较大的更新，比如我们熟知的从DirectX 7到DirectX 8到DirectX 9到再DirectX 10，也是因为这样的理由使得芯片变得更大。在向DirectX 8的转移使得可编程的硬件进入管线成为了双重构造。对于DirectX 9的顶点处理与像素处理，则被真正的可编程处理器调换。而在向DirectX 10的转移为了实现更灵活的可编程性，需要GPU架构进行根本的改革。

所以哪个世代的改变以及生产什么样的GPU都关乎根本性的改革，而这种改革基本上都是围绕DirectX这个最重要的图形API来进行的。特别是DirectX 10时代架构的改革，从根本上改变了GPU的本质。从DirectX 8向DirectX 9通过API的改革牵动了GPU架构的改革，而架构巨大变化的转折点则是DirectX 10。

DirectX 10时代着色器单元走向统一

在DirectX 10时代，我们非常有幸看到了Pixel Shader（顶点着色器）、Vertex Shader（像素着色器）和Geometry Shader（几何着色器），三种具体的硬件逻辑被整合为一个全功能的着色器Shader。但是我们也发现，GPU在性能提升的同时，芯片规模发生了更快速的放大，这不得不让人担心未来GPU的功耗和发热等等问题。

事实上芯片变大有两个主要原因。一个是因为性能的增加。要提高运算性能就会需要更多的资源，这会增加晶体管的数量。另一个就是为了发展可编程化。需要让单一的可编程处理器包括个别进行处理的固定功能硬件，这必然也会增加晶体管数量。可是这样会让性能出现大幅度下滑，因此为了保持同样的性能也需要大幅度增加运算资源。结果就是对于GPU的情况需要从固定硬用向可编程硬件转换，晶体管数和核心尺寸也因此而增加。

直到今天我们看到的DirectX 11出现，这个问题得到了一个平衡的解决方案。DirectX 10带来了众多绚丽无比的新特效，但“滥用”各种特效最终导致GPU不堪重负。在DirectX 10经历了种种波折，瓶颈尽显时，微软也开始将重心集中在如何提升算法和效率上面，而不是一味的加入新特效或提高模型复杂度。因此我们看到的DirectX 11，已经将技术重心放在如何用最小的硬件开销在先进图形技术的辅助下实现最佳的渲染效果。

濮元恺所写过的技术分析类文章索引（持续更新）
NVIDIA/ATI命运转折 GPU十年发展回顾	改变翻天覆地最全Fermi架构解读	显卡只能玩游戏? 10年GPU通用计算回顾	通用计算对决四代N卡激战CUDA-Z
从裸奔到全身武装 CPU功能集成之路探秘	AMD统一渲染架构历程回顾与评测	浅析DirectX11技术带给图形业界的改变	摩尔定律全靠它 CPU光刻技术分析
我就喜欢 "N饭"永不投诚语录	别浪费你的电脑分布式计算在中国	从Folding@home项目看GPU通用计算发展	Computex独家泄密解析AMD下代GPU

产品：金刚GTX480 1536M D5 翔升显卡

DirectX 11带来的全新特性

● DirectX 11带来的全新特性

DirectX 11作为一套全新的图形API，提供给图形开发者和用户极大的想象空间，同时降低了开发难度，节省硬件资源，特别是后两个特点，是DirectX 11区别与以往的DirectX最为显著的特点。

2009年NVISION大会上，微软就透漏了DirectX 11的大量细节，此时DirectX 11已经完全成熟并获得硬件厂商支持，就等和Win7操作系统一同上市了。同时借助SIGGRAPH以及GameFest 2008大会上放出的幻灯片，我们可以进行一些深入的研究。此外，DX11特性的提前放出，对于目前DX10以及DX10.1硬件用户而言也很有帮助，因为AMD和NVIDIA可以照此提前开发适当的驱动支持。

2008年度NVISION资料截图

回顾历次DirectX的更替过程，几乎都对GPU架构产生了颠覆性的影响，它们大部分要求GPU改变现有的着色器Shader单元结构，或者为着色器Shader单元追加资源，这些改进都是为了让GPU的指令数提升，寄存器数量增加，纹理规模提升，材质Texture精度提升。这样的改进难免带来晶体管数量的增长，也就说说GPU内部的每个着色器Shader单元变得更加庞大。

DirectX 11发布后，人们发现微软并没有在Shader Model方面做出重要提升，虽然版本升至Shader Model 5.0，但是更重要的是它实际上可以被看作是DirectX 10和DirectX 10.1的功能补全，你也可以认为它是DirectX 10和DirectX 10.1的超集，如果换个角度大胆设想，我们今天看到的DirectX 11才是微软想要的DirectX 10完美形态。

DirectX 11针对不同方面带来了全新的特性，目前通过现有资料分析，它主要有以下几个方面的提升：

DirectX 11带来的全新特性

    ● 着色器版本提升到Shader Model 5.0，采用面向对象的概念，并且完全可以支持双精度数据。
    ● Tessellation曲面细分技术获得微软正式支持，逐渐走向成熟；
    ● Multithreading多线程处理，让图形处理面对多线程编程环境不再尴尬；
    ● 提出微软自己的Compute Shader通用计算概念，把GPU通用计算推向新的巅峰；
    ● 新的Texture Compression纹理压缩方案，在画质损失极小的环境下带来了硬件资源的节约。

在今天的分析中，我们将重点放在Tessellation曲面细分技术方面，因为这是DirectX 11最为突出的特色之一，也是给图形运算产生深远影响的一项技术，DirectX 11的其他特点我们也会提及。

产品：金刚GTX480 1536M D5 翔升显卡

Tessellation技术简析

● Tessellation技术简析

Tessellation又可译作拆嵌式细分曲面技术。其实这是ATI早在其第一代DirectX 10图形核心R600，即HD2900XT上就引入的一个特殊的计算模块。从HD2000系列开始，直到最新的HD5000系列，整整4代显卡全部支持这一技术。即使目前也仍然没有游戏能够支持这一技术，ATI也依然没有放弃在这项技术上的努力——从名字上也可以看出ATI在这项技术上的心血：Tessell-ATI-on。

Tessellation主要是靠GPU内部的一个模块Programmable Tessellator（可编程拆嵌器）来实现的。能够根据3D模型中已经有的顶点，根据不同的需求，按照不同的规则，进行插值，将一个多边形拆分成为多个多边形。而这个过程都是可以由编程来控制的，这样就很好的解决了效率和效果的矛盾。TessellATIon能自动创造出数百倍与原始模型的顶点，这些不是虚拟的顶点，而是实实在在的顶点，效果是等同于建模的时候直接设计出来的。

Tessellation工作流程三部曲

很明显，DirectX 11中的Tessellation让雪山的凹凸感更为明显，远胜于DirectX 10里所采用的视差映射贴图技术。虽然后者在较远距离观看的时候也能提供一定的视觉欺骗性，但和 Tessellation技术塑造出来的真实感觉还相差太远。我们使用的分析图来自AMD在R600发布时放出的一段Demo，这段Demo区别于以往的设计方式，它没有突出主角而淡化背景，因为在没有Tessellation技术之前，大量顶点的生成和随之而来的计算将给GPU的几何处理部分带来巨大压力，无法流畅运行，而Tessellation技术改变了这一模式。

除了大幅提升模型细节和画质外，Tessellation最吸引程序员的地方就是：他们无需手动设计上百万个三角形的复杂模型，只需简单勾绘一个轮廓，剩下的就可以交给Tessellation技术自动拆嵌，大大提高了开发效率；而且简单的模型在GPU处理时也能大幅节约显存开销，令渲染速度大幅提升。

产品：金刚GTX480 1536M D5 翔升显卡

Tessellation技术历史回顾

● Tessellation技术历史回顾

Tessellation技术最早可以追溯到DX8时代，当时ATI就已经和微软联手开发了TruForm（N-Patch）技术，也就是Tessellation的前身，并被纳入DX8.1的范畴。

2001年，ATI公布了TruForm的技术细节，相关媒体也对这一技术进行了报道。简单地说TruForm技术就是将在芯片内部将游戏中的三角形转换成曲面然后再转换成一个新的三角形，这个三角形可以在场景中显示。

当三角形信息通过图形芯片时，TruForm技术开始工作，它通过创建N-Patch来形成N-Patch网格。

N-Patch网格是一个曲面，通过线性三角形信息来定义。N-Patches在三角形每个边放两个控制点，这样就产生了六个新的顶点。这些控制点都在一个单独的平面上，可以位于原三角形之下或者之上。使用储存在原三角形的顶点向量的信息，可以决定控制点的位置。

N-Patch技术示意图

当然，这并不是一个简单的工作，而这正是TruForm技术的用处所在。当时人们认为它是ATI下一代显卡Radeon2的独门武器。在当时GPU运算能力极为有限的情况下，N-Patch技术可以大幅提升3D模型的细节和显示效果。

但是它却出现了一些非常遗憾的失误，导致这项技术最终被用户放弃。因为N-Patch技术技术比较适合于海豚、赛车等表面为曲面的模型上，而如果这个技术应用在坦克等不需要做曲面化的模型上的时候，效果就会变得相当的滑稽。

Tessellation技术带来的3D流水线变化

N-Patch/TruForm技术就这样被市场边缘化，但是ATI还是没有放弃对它的开发和研究。终于在2005年出现了转机，在微软与ATI的合作结晶——专为XBOX360设计的图形芯片Xenos当中，经过改进的N-Patch/TruForm技术重出江湖，这次ATI将它直接命名为我们熟悉的TessellATIon，直译为“拆嵌”意译为“细分曲面”，同时表示ATI在这项技术中不可磨灭的贡献。

产品：金刚GTX480 1536M D5 翔升显卡

Tessellation技术拆解分析

● Tessellation技术拆解分析

Tessellation这个英文单词直译为“镶嵌”，也就是在顶点与顶点之间自动嵌入新的顶点。Tessellation经常被意译为“细分曲面”，因为在自动插入大量新的顶点之后，模型的曲面会被分得非常细腻，看上去更加平滑致密。它是一种能够在图形芯片内部自动创造顶点，使模型细化，从而获得更好画面效果的技术。Tessellation能自动创造出数百倍与原始模型的顶点，这些不是虚拟的顶点，而是实实在在的顶点，效果是等同于建模的时候直接设计出来的。

图形业界对于曲面细分的探索不断深入

在此之前，人们对低代价多边形操作法已经探索了近10年，从最开始的对三角形的fan操纵，到后来的龟裂和冲撞检查，这些方法可以实现曲面细分效果，但是对资源的消耗量太大不可控制。这次微软在DirectX 11中加入硬件Tessellation单元，我们可以视作曲面细分技术历经长时间的磨练后修成正果。虽然它不太符合通用处理单元的设计方向，但是如果计算晶体管的投入与性能回报，独立的硬件Tessellation单元是目前最好的选择。

Tessellation技术是完全可编程的，它提供了多种插值顶点位置的方法来创造各种曲面：

　　1. N-Patch曲面，就是和当年TruForm技术一样，根据基础三角形顶点的法线决定曲面；
　　2. 贝塞尔曲面，根据贝塞尔曲线的公式计算顶点的位置；
　　3. B-Spline、NURBs、NUBs曲线（这三种曲线均为CAD领域常用曲线，在Maya中均有相应工具可以生成）
4. 通过递归算法接近Catmull-Clark极限曲面。

不同方式的曲面细分效果实例

Tessellation技术最初主要被用以“细分曲面”，随着该技术被纳入DX11范畴，得到大范围推广之后，插值顶点的算法也越来越多，因此用途也越来越广，产生了很多非常有创意的应用。

Tessellation技术还经常与Displacement Maps（贴图置换）技术搭配使用，从而将平面纹理贴图改造成为具有立体感的几何图形，大大增强3D模型或场景的真实性。

除了大幅提升模型细节和画质外，Tessellation最吸引程序员的地方就是：他们无需手动设计上百万个三角形的复杂模型，只需简单勾绘一个轮廓，剩下的就可以交给Tessellation技术自动镶嵌，大大提高开发效率；而且简单的模型在GPU处理时也能大幅节约显存开销，同时大幅提升渲染速度。

产品：金刚GTX480 1536M D5 翔升显卡

DX11中引入可编程曲面细分管线

● DirectX 11引入可编程曲面细分管线

在DirectX10时代的细分曲面里，最有新用途的就是Geometry Shader和Stream Out，前者可以输入一些数据，然后产生一些三角形，后者可以断绝Pixel Shader，做完Geometry Shader就直接输出回Input Assembler，这就意味着可以做GPU递归和迭代。

而DirectX 11相比DirectX 10，Shader Model的变化并不算大，只是增加了5个全新的指令集。但是对于游戏开发者而言，Shader Model 5.0函数和子程序代码的开发都比上一代更加简单方便。增加的五个新指令集目的也是为了让编程者可以进行更灵活的数据访问和操作。

在Shader Model 5.0中，Shader进行了类型的统一，除了4.0版本中就已经有的Vertex Shader、Pixel Shader、Geometry Shader外，还增加了Hull Shader、Compute Shader、Domain Shader三种新的Shade，它们的出现都是为了完善曲面细分管线。

ATI的HD2000以上级别显卡其实都具备Tessellation的功能，但它们却无法与DX11中的Tessellation技术相兼容。这是因为微软并没有原封未动的将R600的Tessellation技术抄到DX11之中，而是对其进行了优化，使之能与渲染流程完美的结合在一起，可以更高效率的细分出更多的多边形和曲面。

与DX9C/DX10时代孤零零的Tessellator模块不同，在DX11当中，微软加入了两种全新着色器来全力配合Tessellator的工作，分别位于镶嵌器的前后。

其中Hull Shader（外壳着色器）用来控制自动生成顶点的数量和算法，也就是Tessellator的细分级别，然后交给Tesselator进行镶嵌处理，最后由Domain Shader（域着色器）按照程序要求生成所需曲面，并自动进行法线平移、置换贴图，产生新的模型。

与DX9/10中的Tessellation技术相比，DX11新增的两种着色器都受统一渲染架构支配，因此处理能力非常富裕，DX11版Tessellation不仅效率更高、而且细分级别更丰富。但是，更高的细分等级对Tessellator模块本身的处理能力提出了苛刻要求，这需要芯片厂商在设计之初就考虑周全。

产品：金刚GTX480 1536M D5 翔升显卡

Tessellation与Displacement Mapping

● Tessellation与Displacement Mapping综合应用

Displacement Mapping（贴图置换）与Tessellation（曲面细分）的结合使用具有许多优势。虽然两者在原理方面本来是没有任何。

贴图置换是一种通过VS和alpha混合操作来达成复杂表面的操作；基本上贴图置换不会增加新的多边形，即便增加也仅作操作点用。曲面细分则不一样，它通过在已知多边形内设立新的顶点，达成fan操作来完成增加多边形的目的。这两种技术一个的重点是alpha和顶点移动，另一个的重点则是直接增加多边形数量。这是两种完全不同的复杂表面细节实现手段。

Tessellation和Displacement Mapping结合应用

简单来讲，Displacement Mapping的目的就是借助Tessellation改变多变形的外观，而不仅仅只是圆滑棱角。

正如你所看到的那样，Displacement mapping能够透过Tessellation和Displacement Mapping让一张平面的网面真正实现具有不同形状的外观（上面的例子是绵绵起伏的山丘），只要使用Displacement Mapping映像到网面的顶点上，就能够让网面善的顶点提升/升降到不同的相对高度，同样的网面可以形成不同的形状。

Tessellation和Displacement Mapping结合应用

和以往主要在光栅化阶段进行的Bump mapping不同的是，Displacement Mapping是生成的是由更多多边形构成的真实外观，而Bump mapping则是一种欺骗性手段、一种性能妥协方案而已，不能产生真正不同的外形，采用Displacement Mapping来实现丰富的表面细节实在有太多的好处了。

最终，利用Displacement Mapping（贴图置换）与Tessellation（曲面细分）相结合的方式所渲染出来的模型与艺术家所用工具中的原生模型很相似，从而让艺术家不必创建不同几何细节级别的模型，无需重复地进行这种一般性劳动。

产品：金刚GTX480 1536M D5 翔升显卡

全新的多线程渲染技术

● 全新的多线程渲染技术

虽然超线程概念已经在CPU领域发展了数十年，但大多数程序员还是直到近年来多核心CPU流行之后才开始关心程序的平行化，在此之前大部分通用代码都是简单的单线程，在这些代码里寻找并挖掘多线程化带来的性能提升是非常困难的。

为了改变这一现状，DirectX 11特性还包括很重要一点：支持多线程（multi-threading）。没错，无论是DirectX 10还是DirectX 11，所有的色彩信息最终都将被光栅化并显示在电脑显示屏上（无论是通过线性的方式还是同步的），但是DirectX 11新增了对多线程技术的支持。

从DirectX 10到DirectX 11的多线程变化

得益于此，应用程序可以同步创造有用资源或者管理状态，并从所有专用线程中发送提取命令，这样做无疑效率更高。DX11的这种多线程技术可能并不能加速绘图的子系统（特别是当我们的GPU资源受限时），但是这样却可以提升线程启动游戏的效率，并且可以利用台式CPU核心数量不断提高所带来的潜力。

多线程渲染示意图1

在DirectX 11中，微软通过将目前单一执行的Direct 3D设备被分为三个独立的接口：设备（Device）、立即执行范畴（immediate Context）和延迟执行范畴（Deferred Context）。

多线程渲染示意图2

这三者都被分发到各自独立的线程，而且设备和Deferred context还可以分配多个线程，负责将等待执行的任务发送给immediate Context或渲染线程。这样的设计可以将图形生成所需的资源做预先的存取。同时，CPU还可以利用显卡的多线程处理加快DirectX的处理，减少CPU的响应时间而使游戏不再受到CPU的瓶颈限制。

产品：金刚GTX480 1536M D5 翔升显卡

Compute Shader与Texture Compression

● Compute Shader与Texture Compression

GPU是图形处理器，以往的GPU通用计算需要程序员先将资料伪装成GPU可识别的图像，再将GPU输出的图像转换为想要的结果，而通过DX11中的Compute Shader通用计算，任意类型的数据（即使是非图形数据）都可以直接进行计算，而且不受图形渲染流程的束缚，可以随时写入写出，GPU通用计算的效能提高了很多。

由于GPU的浮点运算能力非常强大，支持GPU进行通用计算的技术发展势头很快，NVIDIA和AMD分别有CUDA和Stream技术，以前两家是各自为战，如今微软也看到了GPU通用计算的曙光，在DX11中加入了Compute Shader这一技术，意在统一当前的通用计算技术。你可以认为Compute Shader标准就是微软提出的OPEN CL。

Compute Shader技术是微软DirectX 11 API新加入的特性，在Compute Shader的帮助下，程序员可直接将GPU作为并行处理器加以利用，GPU将不仅具有3D渲染能力，也具有其他的运算能力，也就是我们说的GPGPU的概念和物理加速运算。多线程处理技术使游戏更好地利用系统的多个核心。

Compute Shader图形流水线

Compute Shader主要特性包括线程间数据通信、一整套随机访问和流式I/O操作基本单元等，能加快和简化图像和后期处理效果等已有技术，也为DX11级硬件的新技术做好了准备，对于游戏和应用程序开发有着很重大的意义。

在DirectX 11以及CS的帮助下，游戏开发者便可以越过复杂的数据结构，并在这些数据结构中运行更多的通用算法。与其他完整的可编程的DX10和DX11管线阶段一样，CS将会共享一套物质资源（也就是着色处理器）。

在硬件支持Compute Shader之后，相应的硬件必须要比当代硬件更加灵活，因为在运行CS代码的时候，硬件必须支持随机读写、不规则列阵（而不是简单的流体或者固定大小的2D列阵）、多重输出、可根据程序员的需要直接调用个别或多个线程、32k大小的共享寄存空间和线程组管理系统、粒数据指令集、同步建构以及可执行无序IO运算的能力。

Compute Shader可发挥的地方很多，游戏中可以使用GPU进行光线追踪、A-Buffer采样抗锯齿、物理特效、人工智能AI等游戏特效运算。在游戏之外，程序员也可以利用CS架构进行图像处理、后期处理（Post Process）等。

Texture Compression（纹理压缩）是一种和虚拟纹理类似的纹理管理方法，在很多情况下具有6倍以上压缩比例的纹理压缩都可以极其有效地减小纹理本身的大小，从而避免纹理传输和管理方面的瓶颈，并且可以获得更加精细的画面，由此看来其效率比虚拟纹理要高。

DirectX 11加入了两种新的压缩算法——BC6和BC7。其中，BC6是专门针对HDR图像设计的压缩算法，压缩比为6：1；而BC7是专门为LDR（低动态范围）图像设计的压缩算法，压缩比为3：1。

上图则是BC7针对LDR纹理的压缩与传统的BC3纹理压缩对比。可以看出传统的BC3纹理压缩损失了大量的纹理细节，压缩之后的效果也很不好。而采用BC7算法压缩后的纹理，丢失的细节很少，效果也非常好，这就是改进纹理压缩的魅力。

上图展示的是图像通过BC6压缩模式进行压缩的前后效果对比图。其中左边的图像为原始图像，中间的是在压缩过程中损失的一些细节，而右边的就是压缩后的图像。可以看出，从画质上来看几乎没有损失（肉眼看不出），但是却可以大幅度降低显存的占用。

产品：金刚GTX480 1536M D5 翔升显卡

着色器模型变化历程与总结

● 着色器模型变化历程与总结

在图形渲染中，GPU中的可编程计算单元被称为着色器（Shader），着色器的性能由DirectX中规定的Shader Model来区分。GPU中最主要的可编程单元式顶点着色器和像素着色器。

为了实现更细腻逼真的画质，GPU的体系架构从最早的固定单元流水线到可编程流水线，到DirectX 8初步具备可编程性，再到DirectX 10时代的以通用的可编程计算单元为主、图形固定单元为辅的形式，最新的DirectX 11更是明确提出通用计算API Direct Compute概念，鼓励开发人员和用户更好地将GPU作为并行处理器使用。在这一过程中，着色器的可编程性也随着架构的发展不断提高，下表给出的是每代模型的大概特点。

表：Shader Model版本演化与特点

Shader Model	GPU代表	显卡时代	特点
	1999年第一代NV Geforce256	DirectX 7 1999~2001	GPU可以处理顶点的矩阵变换和进行光照计算（T&L），操作固定，功能单一，不具备可编程性
SM 1.0	2001年第二代NV Geforce3	DirectX 8	将图形硬件流水线作为流处理器来解释，顶点部分出现可编程性，像素部分可编程性有限（访问纹理的方式和格式受限，不支持浮点）
SM 2.0	2003 年 ATI R300 和第三代NV Geforce FX	DirectX 9.0b	顶点和像素可编程性更通用化，像素部分支持FP16/24/32浮点，可包含上千条指令，处理纹理更加灵活：可用索引进行查找，也不再限制[0,1]范围，从而可用作任意数组（这一点对通用计算很重要）
SM 3.0	2004年第四代NV Geforce 6 和 ATI X1000	DirectX 9.0c	顶点程序可以访问纹理VTF，支持动态分支操作，像素程序开始支持分支操作（包括循环、if/else等），支持函数调用，64位浮点纹理滤波和融合，多个绘制目标
SM 4.0	2007年第五代NV G80和ATI R600	DirectX 10 2007~2009	统一渲染架构，支持IEEE754浮点标准，引入Geometry Shader（可批量进行几何处理），指令数从1K提升至64K，寄存器从32个增加到4096个，纹理规模从16+4个提升到128个，材质Texture格式变为硬件支持的RGBE格式，最高纹理分辨率从20482048提升至81928192
SM 5.0	2009年 ATI RV870 和2010年NV GF100	DirectX 11 2009~	明确提出通用计算API Direct Compute概念和Open CL分庭抗衡，以更小的性能衰减支持IEEE754的64位双精度浮点标准，硬件Tessellation单元，更好地利用多线程资源加速多个GPU

传统的分离架构中，两种着色器的比例往往是固定的。在GPU核心设计完成时，各种着色器的数量便确定下来，比如著名的“黄金比例”——顶点着色器与像素着色器的数量比例为1：3。但不同的游戏对顶点资源和像素资源的计算能力要求是不同的。如果场景中有大量的小三角形，则顶点着色器必须满负荷工作，而像素着色器则会被闲置；如果场景中有少量的大三角形，又会发生相反的情况。因此，固定比例的设计无法完全发挥GPU中所有计算单元的性能。

顶点着色单元（Vertex Shader，VS）和像素着色单元（Pixel Shader，PS）两种着色器的架构既有相同之处，又有一些不同。两者处理的都是四元组数据（顶点着色器处理用于表示坐标的w、x、y、z，但像素着色器处理用于表示颜色的a、r、g、b），顶点渲染需要比较高的计算精度；而像素渲染则可以使用较低的精度，从而可以增加在单位面积上的计算单元数量。在Shader Model 4.0之前，两种着色器的精度都在不断提高，但同期顶点着色器的精度要高于像素着色器。

Shader Model 4.0统一了两种着色器，所以顶顶点和像素着色器的规格要求完全相同，都支持32位浮点数。这是GPU发展的一个分水岭；过去只能处理顶点和只能处理像素的专门处理单元被统一之后，更加适应通用计算的需求。

DirectX 11提出的Shader Model 5.0版本继续强化了通用计算的地位，微软提出的全新API——Direct Compute将把GPU通用计算推向新的巅峰。同时Shader Model 5.0是完全针对流处理器而设定的，所有类型的着色器，如：像素、顶点、几何、计算、Hull和Domaim（位于Tessellator前后）都将从新指令集中获益。

GPU执行FFT性能将在未来迅速提升

如图，快速傅里叶变换（Fast Fourier Transform，FFT）有广泛的应用，如数字信号处理、计算大整数乘法、求解偏微分方程等等。SIGGRAPH2008峰会认为未来随着Compute Shader和新硬件、新算法的加入，GPU执行FFT操作的性能将得到快速提升。

如果使用DirectX 11中的Computer Shader技术，API将能借助GPU充裕的浮点计算能力进行加速计算，则能轻易完成大量的FFT（傅里叶变换）。在图形渲染中，这项技术的运用极大地提高了波浪生成速度，而且画面质量也更好。

以往受限于浮点运算性能，目前CPU进行FFT变换只能局限在非常小的区域内，比如64x64，高端CPU最多能达到128x128，而GTX 280则能实现每帧512x512的傅里叶变换，所用时间不过2ms，效能非常高。

产品：金刚GTX480 1536M D5 翔升显卡

性能测试的硬件、软件平台状况

性能测试的硬件、软件平台状况

　　● 测试系统硬件环境

　　性能测试使用的硬件平台由Intel Core i7-975 Extreme Edition、ASUS P6T Deluxe主板和2GB*3三通道DDR3-1600内存构成。细节及软件环境设定见下表：

测试平台硬件
中央处理器	Intel Core i7-975 Extreme Edition
中央处理器	（4核 / 超线程 / 133MHz*25 / 8MB共享缓存）
散热器	Thermalright Ultra-120 eXtreme
散热器	（单个120mm*25mm风扇 / 1600RPM）
内存模组	*G.SKILL F3-12800CL9T-6GBNQ 2GB3**
内存模组	（SPD:1600 9-9-9-24-2T）
主板	ASUS P6T Deluxe
主板	（Intel X58 + ICH10R Chipset）
显示卡
	测试产品
	GeForce GTX 480
	（GF100 / 1536MB / 核心:700MHz / Shader:1401MHz / 显存:3696MHz）
	GeForce GTX 470
	（GF100 / 1280MB / 核心:607MHz / Shader:1215MHz / 显存:3348MHz）
	Radeon HD 5850
	（RV870 / 1024MB / 核心:725MHz / Shader:725MHz / 显存:4000MHz）
	Radeon HD 5870
	（RV870 / 1024MB / 核心:850MHz / Shader:850MHz / 显存:4800MHz）
	Radeon HD 5970
	（RV870 / 2048MB / 核心:725MHz / Shader:725MHz / 显存:4000MHz）
硬盘	Western Digital Caviar Blue
硬盘	（640GB / 7200RPM / 16M缓存 / 50GB NTFS系统分区）
电源供应器	AcBel R8 ATX-700CA-AB8FB
电源供应器	（ATX12V 2.0 / 700W）
显示器	DELL UltraSharp 3008WFP
显示器	（30英寸LCD / 2560*1600分辨率）

G.SKILL F3-12800CL9T-6GBNQ

AcBel R8 ATX-700CA-AB8FB

Thermalright Ultra-120 eXtreme

　　我们的硬件评测使用的内存模组、电源供应器、CPU散热器均由COOLIFE玩家国度俱乐部提供，COOLIFE玩家国度俱乐部是华硕（ASUS）玩家国度官方店、英特尔（Intel）至尊地带旗舰店和芝奇（G.SKILL）北京旗舰店，同时也是康舒（AcBel）和利民（Thermalright）的北京总代理。

　　● 测试系统的软件环境

操作系统及驱动
操作系统
	Microsoft Windows 7 Ultimate RTM
	（中文版 / 版本号7600）
主板芯片组驱动	Intel Chipset Device Software for Win7
主板芯片组驱动	（WHQL / 版本号 9.1.1.1120）
显卡驱动
	AMD Catalyst for Win7
	（WHQL / 版本号 10.3）
	NVIDIA Forceware for GTX 400
	（WHQL / 版本号 197.41）
桌面环境	*25601600_32bit 60Hz**

测试平台软件
其他综合测试项目	DX11 SDK Test：Sub D11
	Tessellation Factor=1
	Tessellation Factor=16
	Tessellation Factor=31
	DX11 TechDemo：StoneGiant
	1280*800
	1920*1200
	DX11 SDK Test：PN Triangle
	Tessellation Factor=5
	Tessellation Factor=19
	DX11 SDK Test：Detail Tessellation
	Bump Mapping
	Parallax Occlusion Mapping
	Tessellation+Displacement Mapping
	Adaptive Tessellation+Displacement Mapping
	Tessellation Ultra+Displacement Mapping
	Adapter Tessellation Ultra+Displacement Mapping
辅助测试软件	Fraps
辅助测试软件	beepa / 版本号 3.0.3

　　各类合成测试软件和直接测速软件都用得分来衡量性能，数值越高越好，以时间计算的几款测试软件则是用时越少越好。

产品：金刚GTX480 1536M D5 翔升显卡

Tesslation测试-Stone Giant

DirectX11最为强调的图形特性就是Tessellation（曲面细分）。Tessellation技术利用GPU硬件加速，将现有3D模型的三角形拆分得更细小、更细致，也就是大大增加三角形数量，使得渲染对象的表面和边缘更平滑、更精细。

● Tesslation测试-Stone Giant

《Stone Giant》是一个针对DirectX 11 Tessellation效能十分依赖的Demo，本次笔者将用其作为检验产品Tessellation性能的工具。

以下对比图左侧为Geforce GTX480，右侧为Radeon HD 5870。

● NO Tessellation + NO Wireframe

● NO Tessellation + Wireframe

● Tessellation + NO Wireframe

● Tessellation + Wireframe

产品：金刚GTX480 1536M D5 翔升显卡

Direct X11 SDK Test：Sub D11

● Direct X11 SDK Test：Sub D11

Direct X11 SDK Test：Sub D11是集成在微软的DirectX SDK开发包中的测试组件之一，它主要测试GPU的Tessellation性能。这个测试一共包含31个层级，从第一级的轻度曲面细分到31级重度曲目细分，对显卡的几何处理能力考验不断升级。

我们为了对NVIDIA和AMD公平起见，选择了Factor=1/16/31，这三个级别的测试曲面数量很有可能在未来作为图形开发者的重要参考标准。

我们能够看到一个很明显的性能变化，在曲面细分压力不大的情况下，HD5870有接近于Fermi架构GTX480的表现，HD5970则能够超越GTX480。而在曲面细分压力变大之后，A卡出现了非常严重的性能下降，毕竟R800架构的一个曲面细分单元无法对抗NVIDIA在Fermi架构中给每个SM单元分配一个曲面细分单元。

产品：金刚GTX480 1536M D5 翔升显卡

DX11 SDK Test：PN Triangle

● DX11 SDK Test：PN Triangle

PN Triangle和上一个Sub D11测试有异曲同工之处，它们都着重测试GPU的曲面细分性能。这个SDK测试程序是在微软发布DirectX 11初期由AMD提供的。

因为它同样也有曲面层级设置，所以我们选取了负载较轻的5和负载较重的19进行测试。结果如下：

PN Triangle的测试结果和Sub D11非常相似，毕竟两者的测试目的相同。但是我们需要清楚知道的一点是我们所作的都是理论性能测试，而且是有很强侧重性的。

在图形运算中不可能有完全纯净的Tessellation环境和极大的Tessellation负载。所以我们不可能看到在DirectX 11游戏中出现A卡因为开启了DirectX 11支持的Tessellation功能之后性能大幅度下降。

产品：金刚GTX480 1536M D5 翔升显卡

Detail Tessellation（1）

● DX11 SDK Test：Detail Tessellation （1）

Detail Tessellation是集成在DirectX 11 SDK开发包中的重要基准测试程序，它提供了Bump Mapping、Parallax Occlusion Mapping和Tessellation三种主渲染模式，同时使用者可以在这3种模式之上添加其他附加效果，以达到较为复杂的Shader效果。

这个测试中只要涉及置换位移贴图和传统的凹凸类贴图，都会有大量的VS指令，而VS指令天生就是4D指令，因此R800的4D+1D组织SIMD结构流处理器会表现出较强的性能。而NVIDIA显卡的主要看点则在曲面细分性能上。越复杂的Shader效果对着色器性能要求越高。

Detail Tessellation虽然同样侧重曲面细分能力，但是它添加了大量其他贴图效果，像我们熟知的置换位移贴图和传统的凹凸类贴图都会在这项测试中找到。这项测试已经逐渐接近真实使用环境，同时大量的VS指令也让4D+1D组织SIMD结构流处理器找到了爆发理论值的用武之地。

产品：金刚GTX480 1536M D5 翔升显卡

Detail Tessellation（2）

● DX11 SDK Test：Detail Tessellation （2）

Adaptive Tessellation技术一样会通过调节VS来细化曲面结构，跟单纯的设置顶点碎多边形的Tessellation技术来说不一样。我们发现这方面AMD显卡表现较为优秀，比起单纯的Tessellation技术来说性能衰减要小很多。

而Tessellation Ultra对曲面细分单元较为缺乏的A卡来说，性能下降非常迅速，毕竟Fermi架构的GF100完整版拥有16个曲面细分单元，而AMD的R800架构只是在UTDP指令分配器中装配了一个曲面细分单元以达到微软DirectX 11的硬件要求，所以性能较弱理所应当。

鉴于这项测试对单卡双芯HD5970显卡没有提供良好支持，我们在Detail Tessellation测试中忽略了这款显卡的成绩。我们可以从测试中看到，在Shader效果较为简单的前几项测试中，AMD和NVIDAI的最新架构显卡并没有太大分别，而在越来越复杂的Shader效果中，全新设计的Fermi架构显卡体现出了比较强劲的运算能力。

在4月下旬，中关村在线显卡频道已经对DirectX 11现有的大部分游戏进行了横向评测，而今天这篇文章的目的，就是让大家更加深入地了解DirectX 11这套全新的API将如何从图形图像的渲染方面改变我们的“视界”。

目前Fermi架构的Geforce GTX400系列显卡刚上市不久，整个DirectX 11周边配合程序还没有完善，用户方便执行的、可用于单项性能测试的也只有屈指可数的Techdemo和SDK开发包内的程序，而且它们的测试方向几乎都指向了Tessellation技术。相信在未来的一段时间内，我们可以运用更好的软件来了解DirectX 11显卡的各项技术特性。

本文参考文献：

    [1] 全新绘图时代DirectX 11 GPU架构深度解析
    [2] 图像的革新 Win7 DirectX 11技术全解析
    [3] DirectX 11核心技术Tessellation浅析
    [4] 开创DX11宏图霸业镭HD5870权威评测
    [5] Matrox絕地大反擊幻日Parhelia-512
    [6] 全新API呼之欲出 DirectX 11动力深析
    [7] 细分模式构造及拟合

原文地址:http://vga.zol.com.cn/176/1769287_all.html

你可能感兴趣的:(Direct3D,图形引擎,游戏开发,游戏引擎,引擎开发,GPU)

图灵python从入门到实践浮点数_Python编程从入门到实践-图灵出品-pdf 巴黎巨星岬太郎
封面简介本书是一本针对所有层次的Python读者而作的Python入门书。全书分两部分：首部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python2D游戏开发，如何利用数据生成交互式的信息图，以及创建
Python游戏开发实战：打造高仿俄罗斯方块掌机坦克大战
引言在那个电子游戏刚刚兴起的年代，俄罗斯方块掌机上的坦克大战承载着无数玩家的童年记忆。简单的像素画面、紧张刺激的战斗、精准的操作反馈，这些元素构成了一个经典的游戏体验。今天，我们将用Python和pygame库来重新诠释这个经典游戏，不仅要还原其精髓，更要在技术实现上进行创新和优化。这个项目不仅仅是一个简单的游戏复刻，更是一次完整的游戏开发实践。从游戏架构设计到用户体验优化，从碰撞检测算法到动态难
统一内存架构的可行性与科学性恣艺架构
1.统一内存架构的技术定义与演进1.1核心概念与实现机制苹果的统一内存架构（UMA）通过将内存直接集成于SoC（系统级芯片），使CPU、GPU、神经引擎等计算单元共享同一物理内存池。其关键技术包括：内存池化与动态分配：内存控制器实时调配资源，消除传统架构中CPU/GPU间的数据复制开销。硅中介层互联：计算单元与内存通过硅中介层（SiliconInterposer）直连，提供800GB/s的超高带宽
window显示驱动开发—在 Direct3D 10 基础上的更改程序员王马 windows图形显示驱动开发驱动开发 java 开发语言
Kernel-Mode服务的驱动程序回调函数当运行时调用用户模式显示驱动程序的CreateDevice(D3D10)函数时，Direct3D版本11运行时在D3DDDI_DEVICECALLBACKS结构中提供的特定于设备的回调函数将驱动程序与内核句柄和内核函数签名隔离开来。Direct3D版本11运行时更改了回调语义，因此，回调函数的实现支持自由线程操作模式，而以前的Direct3D版本运行时不
内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理一起搞IT吧内存泄漏和内存占用拆解系列专题数码相机 android 图像处理
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理目录一、背景二、：Android通用GPU内存分配和释放原理2.1：用户态GPU内存分配2.2：内核态GPU内存分配2.3：kgslioctlgpumemalloc分析2.4：gpumemallocentry分析2.5：内核态GP
从0到1，带你轻松吃透Scratch编程
目录一、Scratch是什么二、为什么选择Scratch三、快速上手Scratch（一）界面初相识（二）基础编程概念（三）第一个程序诞生四、深入学习Scratch（一）常用积木块详解（二）变量与数据处理（三）控制结构运用五、实战项目演练（一）简易游戏开发（二）动画制作实战六、学习资源推荐七、总结与展望一、Scratch是什么Scratch是一款由麻省理工学院（MIT）媒体实验室的终身幼儿园团队开发
QuACK：用纯 Python 把 H100 推到“光速” 吴脑的键客人工智能 python 开发语言 gpu算力
FlashAttention的共同作者TriDao与普林斯顿大学的两位博士生最近联合推出了一个名为QuACK的新内核库。这一创新的内核库引起了广泛关注，尤其是在高性能计算领域。QuACK的开发背景QuACK的开发完全基于Python和CuTe-DSL，令人瞩目的是，它不涉及任何CUDAC++代码。这一设计理念打破了传统的编程框架，使得开发者能够在更友好的环境中进行高效的GPU编程。性能优势在强大的
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
[Windows] 开源变速器 OpenSpeedy v1.7.0 辣香牛肉面工具类开源变速器
简单介绍OpenSpeedy是一款开源免费的游戏变速工具（对某些网盘或者其他的一些下载也可进行加速），让你的游戏突破帧率限制，提供更流畅丝滑的游戏加速体验。1、完全免费且开源2、简单易用的界面3、可自定义变速倍率4、对多种游戏引擎兼容性良好5、低系统资源占用6、同时可以加速x86和x64平台进程7、无内核侵入性，Ring3层Hook，不破坏系统内核操作系统要求OS:Windows10以上平台：x8
探索未来游戏开发的新纪元 —— 使用Rust与Bevy引擎的《Rust Invaders》项目解析林泽炯
探索未来游戏开发的新纪元——使用Rust与Bevy引擎的《RustInvaders》项目解析rust-invadersSimpleRUSTgamewiththeBevyEngine项目地址:https://gitcode.com/gh_mirrors/ru/rust-invaders在游戏开发的浩瀚星海中，一款能够激发开发者创造力和提升效率的引擎至关重要。今天，我们要向您隆重推荐一个基于Rust编
常用显卡命令 Mr.小海 Linux linux 机器学习人工智能深度学习服务器
常用显卡命令1.查看显卡基本信息lspci|grep-invidia2.查看显卡驱动版本不更新：nvidia-smi-a每秒更新：watch-n1nvidia-smi3.查看gpu使用情况nvidia-smi4.动态查看gpu使用情况watch-n1nvidia-smi5.查看谁正在使用GPUpsaux|grep30856.打开系统监视器，快捷键：winctrl+alt+del：gnome-sys
阿里云产品介绍
阿里云产品相关计算：云服务器ECS、云虚拟机、GPU云服务器网络：负载均衡SLB、弹性公网IP、专有网络VPC、CDN（CDN通过将内容缓存到全球分布的多个边缘节点（EdgeNodes）上，使用户可以从离自己最近的节点获取内容，从而减少网络延迟，提升访问速度）存储：块存储EBS（ElasticBlockStorage）、对象存储OSS（ObjectStorageService）、文件存储NAS数据
第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）阿里云云原生 CNCF X 阿里巴巴云原生技术公开课阿里云 Kubernetes CNCF 专家团队 CNCF 专家团队 CNCF 专家团队 Kubernetes
本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI的技术革命迅速从学术圈蔓延到了工业界，所谓AI革命从此拉开了帷幕。经过三年的发展，AI有了许许多多的落地场景，包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能，并不是
Docker 与 GPU 训练 wydxry docker 容器运维
以下是Docker与GPU训练相关的核心命令和操作指南，涵盖容器启动、资源监控和调试技巧：1.启用GPU支持的Docker安装NVIDIA容器工具包（必须步骤）#添加源并安装distribution=$(./etc/os-release;echo$ID$VERSION_ID)\&&curl-s-Lhttps://nvidia.github.io/nvidia-docker/gpgkey|sudoa
2025-04-22| Docker: --privileged参数详解
在Docker中，--privileged是一个运行容器时的标志，它赋予容器特权模式，大幅提升容器对宿主机资源的访问权限。以下是--privileged的作用和相关细节：作用完全访问宿主机的设备：容器可以访问宿主机的所有设备（如/dev下的设备文件，包括GPU、USB设备等）。例如，容器可以直接操作宿主机的磁盘、分区或硬件设备。绕过权限限制：容器内的进程以接近宿主机root用户的权限运行，忽略许多
Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析观熵国产 NPU ×Android 推理优化 android 人工智能
Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排、SoC协同处理、AI芯片编程摘要随着国产SoC平台持续迭代，Android系统中异构计算模式已从传统CPU+GPU并行计算，扩展到集成NPU、DSP、ISP等多核单元的复杂协同体系。在AI推理
AI大模型训练的云原生实践：如何用Kubernetes指挥千卡集群？
当你的团队还在手动拼装显卡集群时，聪明人早已教会Kubernetes自动调度千卡。就像交响乐团需要指挥家，万级GPU需要云原生调度艺术。深夜的机房，硬件工程师老张盯着监控屏上跳动的红色警报——手工组装的千卡集群再次因单点故障崩溃。而隔壁团队通过Kubernetes调度的百卡集群，训练效率竟高出他们47%。这不是魔法，而是云原生调度的降维打击。一、千卡训练：为什么传统方法行不通？想象指挥没有乐谱的千
【科研绘图系列】R语言绘制分组直方图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制分组直方图加载R包library(ggplot2)library(ggpubr)rm(list=ls())options(stringsAsFactors=F)</
探索OpenCV 3.2源码：计算机视觉的架构与实现轩辕姐姐
本文还有配套的精品资源，点击获取简介：OpenCV是一个全面的计算机视觉库，提供广泛的功能如图像处理、对象检测和深度学习支持。OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。源码的模块化设计、C++接口、算法实现、多平台支持和性能优化等方面的深入理解，都将有助于开发者的
GPU网络运维一行代码通万物网络运维 GPU
一、GPU网络架构与核心技术GPU集群网络需适配分布式训练中“多节点数据同步”（如all-reduce、broadcast）的高频、大流量需求，主流技术方案及特点如下：网络技术核心优势适用场景运维重点InfiniBand低延迟（~1us）、高带宽（400Gb/s）、原生RDMA支持超大规模集群（≥1000节点）、千亿参数模型训练子网管理、固件兼容性、链路健康RoCE（RDMAoverConverg
C语言---坑人大冒险游戏开发详解
本文将深入解析一款基于控制台的C语言RPG游戏《坑人大冒险》Beta0.1版本，从游戏设计到代码实现进行全面解读。附完整可运行代码，带你掌握控制台游戏开发的核心技术！看在源代码免费的份上，点个关注吧(づ￣3￣)づ关注是我更新的动力￣︶￣∗￣︶￣∗)作者会分享更多涉及到各种编程语言的项目！（＾∀＾●）ﾉｼ目录1.游戏概述2.游戏核心架构2.1数据结构设计游戏采用结构体存储角色和怪物数据：2.2游戏模
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
Qt/C++音视频开发22-通用GPU显示 feiyangqingyun Qt/C++音视频开发 Qt视频监控 Qt音视频 Qt硬解码
一、前言采用GPU来绘制实时视频一直以来都是个难点，如果是安防行业的做视频监控开发这块的人员，这个坎必须迈过去，本人一直从事的是安防行业的电子围栏这个相当小众的细分市场的开发，视频监控这块仅仅是周边技术玩一玩探讨一下，关于GPU绘制这块着实走了不少的弯路。之前用ffmpeg解码的时候，已经做了硬解码的处理，比如支持qsv、dxva2、d3d11va等方式进行硬解码处理，但是当时解码出来以后，还是重
『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！ AI大模型前沿研究大模型笔记大模型人工智能 Hinton llya 大语言模型多模态大脑工作方式
GeoffreyHinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！文章目录一.整个访谈内容1.1.起点：理解大脑的工作方式以及隐藏层命名的由来1.2.谈Ilya：他有很好的直觉1.3.预测下一个词也需要推理1.4.模型能从语言中学到很多，但从多模态中学习会更容易1.5.关于认知的三种观点1.6.黄仁勋送了我一块GPU1.7.数字系统有人类无法比拟的优势1.8.需要得到重视的快速权
UGUI 性能优化系列：第三篇——渲染与像素填充率优化吉良吉影NeKoSuKi 性能优化 unity 游戏引擎 c#开发语言
在UnityUGUI性能优化之旅中，我们已经学习了基础的资源管理和Canvas与UI元素的管理。现在，我们将把目光转向更深层次的渲染层面，特别是如何优化像素填充率（PixelFillRate）。在这个环节中，Overdraw（过度绘制）是一个我们必须理解和解决的关键问题，因为它直接关系到GPU的工作效率。一、Overdraw（过度绘制）的危害与检测1.什么是Overdraw？为什么会影响性能？想象
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
游戏开发日记 future1412 学习数据结构 c#
如何用数据表来储存，位置坐标（XYZ）：决定了对象在世界中的摆放资源ID/图片URL：决定了使用什么模型或贴图事件ID/特效：是否触发某些事件（例如点击、交互）逻辑索引（GridIndex）：用于程序检索和映射用途这在策略类、模拟类、RPG游戏中非常常见，例如建筑布局、怪物摆放、地图资源点等。这个表格决定的是玩家事件，使用了的图片名称URL，格子的出入口设置，格子的类型，是否为检察点，场景id，副
如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南知识大胖 NVIDIA GPU和大语言模型开发教程 linux 运维服务器
简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。主线内核和驱动程序怪癖之旅Nvidia50系列GPU拥有最新的Nvidia技术。但是，新硬件需要一些新软件或更新，这需要一些耐心。如果您在这里，您可能会遇到Ubuntu默认设置的障碍。不要害怕！我最近自己摸索了这个迷宫，结
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

濮元恺所写过的技术分析类文章索引（持续更新）
NVIDIA/ATI命运转折 GPU十年发展回顾	改变翻天覆地最全Fermi架构解读	显卡只能玩游戏? 10年GPU通用计算回顾	通用计算对决四代N卡激战CUDA-Z
从裸奔到全身武装 CPU功能集成之路探秘	AMD统一渲染架构历程回顾与评测	浅析DirectX11技术带给图形业界的改变	摩尔定律全靠它 CPU光刻技术分析
我就喜欢 "N饭"永不投诚语录	别浪费你的电脑分布式计算在中国	从Folding@home项目看GPU通用计算发展	Computex独家泄密解析AMD下代GPU