jieniyimiao

五大移动GPU厂商

《谁能笑傲江湖？移动处理器门派那些事儿》一文中我们把2012年的移动处理器的厂商做了一番介绍，并按照各自的属性给划分了门派。既然把他们称为江湖门派，那么每一个门派总要有自己的绝活。移动处理器厂商中CPU基本都是源自ARM，同架构下各家厂商的表现都差不多，能成为镇派之宝的绝学都是在GPU上。超能网近日奉上续作，对五大移动GPU厂商进行了逐一点评——

做能移动处理器的厂商可以洋洋洒洒列出几十家，我们精挑细选了近年出过风头的依然有13家，但是说到设计GPU核心，这个名单就短多了，主要的厂商甚至不到5家。

2012年的移动GPU份额调查

以2012年JPR公布的移动GPU市场份额来看，所有移动GPU中Imagination的PowerVR占据了50.1%的份额，高通的Adreno占据了33%，剩下的就被Vivante、ARM、DMP、NVIDIA瓜分了，不过整体份额比之前两位就差远了。

作为移动处理器的后续篇章，今天我们就来介绍一下移动处理器中GPU厂商的情况，我们只选了5家我们平时接触到相关产品的厂商——Imagination、高通、ARM、NVIDIA、Vivante。DMP和Takumi虽然份额不比ARM低，但是我们身边还真没多少处理器使用他们的GPU方案。

机是一样的机，GPU上见高低。

移动GPU的影响实例：不同机型画质大不同

在水果与机器人的战争中，iOS阵营的应用软件及游戏表现的很统一，特别是在游戏方面，iPad mini这样的规格精简版表现普遍都会好于Android版，Android阵营中高帅富机型与DS机型齐飞，同一个游戏在不同机型上的表现环肥燕瘦，各不相同。

《史诗城堡》benchmark中不同机型画质不一

以之前测过的一款名为《史诗城堡》的benchmark为例，它在高通、NVIDIA、PowerVR、Mali等GPU上的画质表现差异很大，有的地面纹理很清晰，有的就直接很模糊，锯齿严重。

这个问题既不是第一次被发现，也不是第一次有解释。很多玩家都已经知道了，造成这种画质差别的主要原因是游戏的纹理数据不一样，再深入一点就是游戏开发商针对每个处理器平台的特点使用了不一样的纹理压缩格式，那些重点照顾的GPU的游戏画面会很漂亮，之外的GPU有可能会存在各种问题。

由于移动GPU的性能弱、带宽低(下文还有解释)，游戏模型的纹理不可能很精细，至少不能跟桌面GPU相比(手机的小屏幕、高PPI已经帮着遮羞不少了)，在带宽有限的情况下哪种纹理压缩格式压缩比更高、画质损失最小就成了关键，游戏开发商选择支持哪种纹理压缩格式就带来了画质上的不同。

目前五大GPU厂商中每家的移动GPU产品至少都会支持一种通用的纹理压缩格式，有的还支持自己的独家纹理压缩技术，简单来看一下。

主流纹理压缩标准：ETC、PVRTC、S3TC

首先说OpenGL ES标准中的，2.0版规范中将ETC(Ericsson Texture Compression)作为基本的纹理压缩标准，这是大部分移动GPU都会支持的纹理标准。OpenGL ES 3.0中还引入了ETC2、EAC纹理压缩格式，二者基本一致，只不过EAC主要用于1-2通道数据的情况。目前ECT2还在改进中，除了高通的Adreno 320之外还没有移动GPU支持，Tgera 4也不行。

此外，OpenGL ES 3.0中还有一种可选纹理压缩格式——ASTC(Adaptive Scalable Texture Compression，自适应扩展纹理压缩)，这是ARM提出的，去年被Khronos组织认可，纳入到标准中来，不过并不是强制性的，目前也只有Mali-T600系列支持。

Imagination旗下的PowerVR GPU支持的是PVRTC(PowerVR texture compression)和ETC，高通的Adreno 2xx系列支持ETC之外还有3Dc和ATITC。后两者都是原来的ATI开发的，Adreno 320除了前面三种标准之外还支持ETC2纹理压缩。

ARM的Mali-300/400系列支持ETC，Mali-T600还多了ASTC纹理支持。

NVIDIA的Tegra系列更有趣。之前的说法称Tegra支持自己的纹理格式，实际上除了通用的ETC之外，Tegra支持的纹理叫做S3TC(S3 Texture Compression)，也被称为DXTn或者DXTC。S3TC是S3公司在1999年引入的，后来被DX 6.0和OpenGL 1.3吸收为官方标准，DXTC相当于Windows版的名字，S3TC是OpenGL中的名字。

说到S3TC，之前苹果和HTC大打专利战的时候就涉及到了这个标准。S3已经归为VIA威盛旗下，HTC和威盛又有同一个老板——王雪红。为了支援HTC打专利战，威盛去年就把S3部门出售给了HTC，算是左手倒右手吧。

S3TC是DX显卡都支持的标准，NVIDIA也在Tegra中支持了这个标准，S3TC根据不同算法又分为DXT1-DXT5这五个级别，Terga支持的实际上是DXT1、DXT3和DXT5。

Vivante的GC系列也支持ETC和S3TC，跟NVIDIA的Tegra路线相同。以前都说Vivante支持的是NVIDIA Tegra的纹理数据，实际上二者是选择了共同的路线而已，DXT也不是NVIDIA的专利。

目前来说我们能常用到的纹理压缩主要是ETC、PVRTC、S3TC、ATITC这四种种。

主流紋理压缩格式优缺点

常见的TC格式压缩比

先来看压缩比。如果无失真的PNG容量是5.4MB，那么S3TC和ETC都能压缩到1.1MB，PVRTC压缩最高，可压缩到528KB，不过PVRTC的问题在于它只支持PowerVR系列GPU，有排他性，高通的Adreno支持的ATITC同样有排他性，其他厂商并不支持。

ETC是最通用的纹理压缩格式，不过ETC并不招厂商待见，因为ETC纹理压缩不支持Alpha通道，只能用于压缩不透明的材质，不过ETC也有自己的优点，几乎所有的安卓设备都可以支持ETC压缩的GPU加速。

S3TC无论压缩速度还是压缩比都不错，也支持GPU加速，而且是桌面显卡通用的压缩格式，看起来是最完美的选择，可惜的是移动市场跟PC不一样，大家各自为王，NVIDIA现在还没强大到让其他GPU厂商低头采用S3TC标准的程度，因为S3TC说到底还是一种私有的标准，有专利上的麻烦。

ETC2压缩标准补全了ETC1不支持Alpha通道的缺陷，支持更高质量的RGBA(RGB+Alpha)压缩，而ARM提出的ASTC标准在压缩速度和质量上比S3TC要好，但是这两种压缩格式都是新出的，支持的厂商实在太少了。

移动GPU渲染原理的流派：IMR、TBR、TBDR

移动GPU相对桌面级的GPU只能算是未长大的小孩子。虽然小孩子在某些场合也能比成人更有优势(比如杂技、柔术之类的表演)，但在力量上还是有先天的差别，主要表现在理论性能和带宽上。

与桌面GPU动辄256-bit甚至384-bit的位宽、1.2-1.5GHz的高频显存相比，移动GPU不仅要和CPU共享内存带宽，而且普遍使用的是双32-bit位宽、LPDDR2-800或1066左右的内存系统，总带宽普遍在10GB/s以内，悲催的Tegra 3使用的还是单通道内存模式，搭配DDR3L的带宽不过6.4GB/s。

目前GPU性能最强大的iPad 4带宽也不过17GB/s(图片源于Anandtech)

移动处理器中内存带宽最高的是iPad 3/4，因为他们使用Retina屏幕，2048x1536的高分辨率对GPU带宽要求更高，不过就算是这两款产品，17GB/s的带宽与PC显卡上动辄200GB/s以上的带宽相比还是小儿科了。

没有高带宽就没有大容量纹理数据，也就不会有高画质。尽管带宽不是制约移动GPU发展的唯一因素，但是在目前的限制下，移动GPU厂商关心的头等大事就是如何在尽可能小的带宽需求下提升GPU性能及画质。前面介绍的纹理压缩是一个方法，还有一种就是使用不同的渲染方式，主要有IMR、TBR及TBDR等。

伤不起的“立即渲染模式”——IMR

IMR(Immediate Mode Rendering)就如字面意思一样——提交的每个渲染要求都会立即开始。这是一种简单而又粗暴的思路，优点缺点都非常明显。如果不用为性能担忧，这种方式会很省事，但是IMR的渲染实行的是无差别对待，那些遮蔽处理的部分依然会被渲染处理器，这也导致无意义的读写操作更多，浪费了大量性能和带宽。

总之，IMR这种渲染方式在移动GPU上的评价只能是“负分，滚粗！”

变聪明了的“贴图渲染”——TBR

IMR傻大粗的做法不可取，那就来一个聪明点的方式——TBR(Tile Based Rendering，贴图渲染)。它将需要渲染的画面分成一个个的区块(tile)，每个区块的坐标通过中间缓冲器以列表形式保存在系统内存中。这种渲染方式的好处就是相对IMR减少了不必要的渲染任务，缺点就是遮蔽碎片依然会少量存在，而且需要中间缓冲器。

TBR渲染将游戏画面分为不同的区块

再次进化的渲染方式登场——TBDR

TBR虽然比IMR聪明多了，不过还是存在不少缺陷，TBDR(Tile Based Deferred Rendering，贴图延迟渲染)闪亮登场。它跟TBR原理相似，但是使用的是延迟渲染(Deferred Rendering)，合并了完美像素，通过HSR(Hidden Surface Removal，隐藏面消除)等进一步减少了不需要渲染的过程，降低了带宽需求。实际上这些改变和PC上的渲染有些相似。

TBDR渲染的一个关键是延迟渲染

TBDR主要是Imagination在使用，这是他们最大的筹码之一。其他几家厂商用的都是TBR技术。

在微软的DX11.1升级中也有提到支持TBDR，因为Windows 8系统还专门为平板和触控优化，对TBDR这种移动平台常用的技术加以优化也是必然的。

无冕之王——Imagination公司的PowerVR

Imagination技术公司并不介入ARM处理器生产，他们专注于是移动GPU技术授权。因为专业所以强大，Imagination绝对是移动平台GPU授权的老大，即便是Intel的Atom处理器及桌面的GMA 500也使用了PwerVR系列GPU核心。他们的触角伸得很广，并不局限于ARM阵营。

Imagination也是一家英国公司，早前还有个部门VideoLogic。在3D加速卡方兴未艾的那个年代，VideoLogic也曾参与了Voodoo、NVIDIA、ATI等公司激战3D加速卡的战役，可惜最终存活的只有NVIDIA和ATI(AMD)，不过失之东隅收之桑榆，Imagination的移动GPU技术部门PwerVR反倒有所收获，在移动市场上他们又可以俯视NVIDIA了。

Imagination公司的授权伙伴主要有Intel、苹果、联发科、LG、高通、瑞萨、三星、海思、Marvell、索尼等等，几乎都是大腕，其中Intel和苹果还是Imagination公司的大股东之一。

近年来Imagination公司也不再满足于移动GPU技术授权了。去年底以1亿美元的代价收购了MIPS公司的专利和资产，已经把MIPS架构融入到自家Mtera处理器中了。CES展会上，Caustic公司展出了Caustic 2500/2100光线追踪加速卡，而这家公司也被Imagination收购了，看来他们的业务范围还在扩大。

至于具体的产品，Imagination的PowerVR历史悠久，型号众多，我们主要介绍PowerVR SGX 5、PowerVR SGX 5XT及未来的PowerVR 6系列吧。

PowerVR系列GPU

主力产品：PowerVR 5、PowerVR 5XT

PowerVR SGX 5系列主要有SGX 520、SGX 530、SGX 531、SGX 535、SGX 540以及SGX 545，常见的是SGX 531、SGX 540和SGX 545，联发科的双核产品中整合的就是SGX 531，不过叫做SGX 531 Ultra，因为其频率大幅提高到了522MHz。

SGX 540在TI的OMAP 44x0系列很常见，Intel的Atom Z2460使用的也是SGX 540，Clover Tail平台的Atom Z276使用的就是SGX 545了。

PowerVR SGX 5系列使用的是USSE架构(Universal Scalable Shader Engine，通用可扩展渲染引擎)，支持OpenGL ES 2.0/1.1，SGX 535/545还支持DX9，SGX 545支持DX10.1。

PowerVR SGX 5XT是SGX 5的升级版，主要有Power SGX 543、SGX 544、SGX 554三款，使用了USSE2引擎，峰值浮点性能是USSE引擎的2倍，强化了多核集成，这三者最多可以同时集成16个。苹果最新的A5、A5X、A6、A6X分别集成了SGX 543MP2、SGX 543MP4、SGX 543MP3及SGX 554MP4。

PowerVR 544MP架构

图形规范方面，PowerVR SGX 5XT依然支持OpenGL ES 2.0/1.1、DX9，不过该系列依然增加了新元素，自SGX 544开始支持PVRTC2纹理压缩格式，全系列引入了部分OpenGL ES 3.0中才有的技术，比如MRT多目标渲染、遮蔽查询、无缝立方体映射、浮点纹理等新功能。

今年的GDC大会期间Imagination称5XT系列将会支持部分OpenGL ES 3.0技术

未来王者——PowerVR 6向1TFLOPS水平迈进

虽然PowerVR SGX 5/5XT性能并不落后，但是Imagination还是早早地在2012年的CES展会上公布了新一代PowerVR 6系列移动GPU，架构代号Rogue。Imagination称目前的移动GPU性能水平是100GFLOPS级别的，而PowerVR 6则是朝着1000GFLOPS设计的。

1TFLOPS是个等级。我们以桌面显卡为例，HD 7850是1.76TFLOPS，HD 7770是1.28TFLOPS，HD 7750则是0.819TFLOPS，这意味着PowerVR 6系列的最高性能甚至可以超过HD 7750级别的桌面显卡，牛的一X。

当然，这么高的性能只有PowerVR 6系列的的旗舰型号可以达到，从高到低总计有G6630、G6400、G6430、G6200、G6230、G6100等型号，其中G6100、G6200/6400系列专为核心面积优化，适合组成单核、双核或者四核设计。

Imagination能成为移动GPU的老大显然会有很多独特优势和技术。他们的GPU不是性能最强的，也不是核心面积最小的，不过单位功耗性能、单位面积性能表现都很强，多核集成、配套的开发工具、纹理压缩格式、TBDR渲染技术都是他们冲锋陷阵的利器，综合起来PowerVR就是表现最优秀的移动GPU授权之一。

堆砌大篇PowerVR详细架构的文字也没什么意思，其中一个让人感兴趣的问题是PowerVR 5及5XT是否使用了统一渲染架构。从找到的资料来看，PowerVR的USSE引擎中第一个U代表的意思在目前的官网上是指Universal通用，但是早期的发布新闻上这个U代表的是Unified，也就是统一渲染的意思。

架构图中PowerVR 5之后的GPU中不再有VS和PS这样的单元，都叫做“Unified Scalable Shader Engine”(统一超标量渲染引擎)，再加上它们都支持DX10规范，因此PowerVR 5之后的GPU实际上已经是统一渲染架构了。再考虑到PowerVR 5是在2005年宣布的，桌面级的统一渲染架构是2006年发布的，这就可以说明Imagination的技术实力是多么强大。

点评与展望：PowerVR 6啥时候上市

对一个占据了绝大多数市场份额的公司也没有继续赞扬的必要了，苹果、联发科等大客户的销量就能说明一切。虽然发布了好几年了，PowerVR 5/5XT依然是目前追求极致游戏性能的最佳选择之一。

问题是PowerVR 6，架构发布及PPT宣传都快一年半了，现在连影子都没。PowerVR 6的性能提升很夸张，制程工艺及实际应用都要跟得上才行，前几天正好有新闻说Imagination联合台积电宣布将使用后者的16nm FinFET工艺制造，这一下子就给支到至少2014年了。

发布时PowerVR 6已经有6家厂商买了的授权，其中三家是德州仪器、联发科和ST-Ecricsson(意法-爱立信)，还有三家没宣布，不过结合之后的消息来看三家没公布名称的厂商至少有海思，而LG也在今年的CES展会上首次公布了PowerVR 6平台，说明他们也在授权内，瑞萨也展示过PowerVR 6平台，算起来差不多就是这三家了，苹果是否愿意获得PowerVR的授权就不得而知了。

只是时过境迁，TI目前退出了消费级嵌入式处理器市场，意法-爱立信也关闭了，即便是公开展出的PowerVR 6也全都是大块头，集成到智能手机和平板所用的超低功耗处理器中还很远。

江湖富二代——ARM公司的Mali

ARM公司不仅提供ARM处理器授权，他们也有一整套GPU授权方案——Mali。由于亲生的血缘关系，Mali在好爸爸ARM的帮助下也攻城掠地，很多不具备独立开发GPU技术的芯片供应商都直接使用了ARM处理器+Mali GPU的设计，比如三星、瑞芯微、展讯、意法半导体、全志等，其中三星和全志还是出货量大户，所以Mali GPU的份额和出货量可不低。

ARM官网显示Mali GPU在智能电视和Android平板中占有率第一，智能手机市场占有率超过20%，2012年出货量高达1亿(一说是1.5亿)，使用Mali GPU的终端超过200多种。

说到Mali的历史，ARM原本也是没有GPU授权的，此前他们也是使用Imagination的GPU核心。Mali其实是源于2006年收购的一家挪威特隆赫姆地区的移动GPU芯片厂商Falanx。ARM公司的Mali GPU开发中心也就落户在哪里，现在Mali已经变成了ARM的亲儿子了。

主力产品：Mali-300/400/450、Mali-T600

ARM公司目前的主力产品主要分为两个层次，Mali系列支持OpenGL ES 2.0，有Mali-300、Mali-400及Mali-450三款，架构代号Utgard(乌特加德，WOWer泪奔)，Mali Plus系列支持OpenGL ES 3.0，有Mali-T604、Mali-T624、Mali-T628及Mali-T678四款(其实还有Mali-T658，官网为啥不列出)，使用的架构代号Midgard(米德加德)，全都是北欧神话中的仙境。

Mali-300是ARM第一款支持OpenGL ES 2.0规范的GPU核心，拥有8KB L2缓存，使用AMBA AXI总线，支持1080p分辨率下的4x MSAA抗锯齿，主要使用65nm工艺，LP工艺频率240MHz，GP工艺下频率可达400MHz。

Mali-400 MP在Mali-300基础上做了改进，制程和频率不变，不过L2缓存可配置8-256KB，而MP后缀的加入意味着Mali-400可配置多个GPU核心，每个核心包括内存系统在内核心面积为4.7mm²，最多可配置4个核心，三星Galaxy S3中使用的Exynos 4412就是Mali-400 MP4的配置，因为32nm HKMG工艺的原因，频率也提高到了440MHz，Note 2中则是533MHz。

Mali-450 MP则是Mali-400 MP的升级版，制程工艺升级到40nm，40nm LP工艺的频率是240MHz，GP工艺是480MHz，可配置L2缓存是8-512KB，四核的Mali-450 MP4、256KB L2缓存再加上内存系统的核心面积是8.6mm²，最多可集成8个核心，ARM宣称其性能是Mali-400的2倍，不过使用Mali-450 MP的处理器不多见。

Mali-T600系列是去年才开始露面的新一代产品，支持OpenGL 3.0和DX11规范，使用了统一渲染架构，支持OpenCL和DirectCompute加速，T600系列实际上也发展了两代了，露面最早的Mali-T604是第一代，Mali-T624/628/678等后续产品则是第二代架构了。

Mali-T604最早在三星的Exynos 5250中应用，其CPU部分是双核Cotrex-A15，GPU就是T604了，使用的总线升级到AMBA 4 ACE-LITE，L2缓存提高到32KB，最高可配256KB，内建的MMU内存管理单元支持虚拟内存，最多可集成4核。

ARM没有公布Mali-T604的具体频率及核心面积、性能，只说是前代产品的5倍性能。

Mali-T624的规格参数基本与T604一致，不过核心升级到了第二代Midgard，T628最多能支持8核配置。

昙花一现的Mali-658还是第一代Midgard架构，现在已经被二代Midgard架构的T678取代，之前的资料显示T658的性能是Mali-400 MP的10倍，计算性能是后者的4倍，Mali-678只会比这个指标更强。

Mali-T600还支持ARM开发的ASTC纹理压缩格式，现在已经成为OpenGL ES规范中的一个可选纹理标准，其压缩率更高，内存带宽要求更低。

点评与总结：

ARM的Mali GPU给人的感觉更像是PC中的公版显卡一样，积极支持各种最新标准，注重性能功耗比。以Mali-400 MP4为例，整合256KB L2缓存及内存之后核心面积也只有6.8mm²，40nm LP工艺及250MHz频率下像素填充率就有1000MPix/s，28nm工艺的Tegra 4的GPU核心面积10.5mm²，像素填充率为2688MPix/s，但是它的频率高达672MHz，Mali-400 MP4如果使用同样的工艺和频率的话性能不会比它差，Mali-T600系列号称同样核心面积下IPC性能提高了50%。

但是Mali GPU的问题在于目前授权使用的大部分还是Mali-400 MP以下的，Mali-450 MP都没有多少厂商集成，Mali-T604除了在三星的Exynos 5250中有过应用，发布过一年多以来未见其他处理器集成。即便是三星这个老朋友，新一代的Exynos 5 Octa也改用PowerVR的GPU核心了，Mali又少了一个可靠的合作伙伴。

尽管三星的换门会给Mali带来一些短暂的麻烦，不过ARM的CPU+GPU一条龙方案对很多实力不足的厂商还是有很强的吸引力，在中低端市场Mali GPU依然有自己的一席之地，份额不可小视。

未来的和尚会念经——高通的Adreno

作为屈指可数(不是唯一一个)可以自己改进ARM指令的移动处理器厂商，说高通是安卓阵营移动处理器一哥估计没人会反对，再加上高通的3G技术及基带上的优势，高通处理器绝对是近年来最热门的选择之一，顺带着也把高通的Adreno图形核心带火了。

跟ARM亲生的儿子Mali差不多，高通的Adreno其实也是领养的。Adreno原本是ATI旗下的移动GPU部门，当时叫做Imageon，主要为当时的掌上平台提供图形核心。2006年AMD收购了ATI，Imageon部分也进入了AMD公司。收购ATI之后AMD就进行了改组，Imageon部分很不幸地成为多余资产，最终在2008年末被高通以区区6500万美元的代价买走，现在就是高通的Adreno图形部门了。(不知道AMD看到现在的情况是否会后悔？)

高通与AMD的纠葛还没有完，去年2月份AMD当时的CTO Eric Demers也低调离职，他没有加入NVIDIA或者Intel，最终去了高通公司去负责移动GPU的发展，AMD后来则挖到前苹果副总Mark Papermaster做新任CTO，这也算是AMD对2009年时任CTO加盟苹果的报复吧。

八卦完了再回到Adreno正题上来，目前在高通官网上列出的Adreno型号从高到低主要有Adreon 320、Adreon 220、Adreon 205、Adreon 200、Adreon 130，其实还有Adreon 225以及更奇葩的Adreon 203没有列出，我们来看其中最熟悉的Adreno 220、Adreno 225和Adreno 320吧。

主力产品：Adreno 220、Adreon 225及Adreon 320

Adreno 220主要集成在MSM8660和MSM8260这两个骁龙S3处理器中，Adreno 225则出现在骁龙S4的MSM8960中，后者使用了新的Krait架构和28nm工艺，大红大紫的小米一代使用的就是MSM8260，MSM8960在双核时代也很火。

Adreno 220/225与前代的Adreno 205架构对比

Adreno 220/225支持OpenGL ES 2.0/1.1、EGL 1.3、OpenVG 1.1、DX9等规范，网上及高通公司有关Adreno 220系列的资料也非常少，目前只知道二者的架构基本是一致的，使用了统一渲染架构(高通原话)，都是8组渲染管线，每组渲染管线中有4个矢量ALU单元和1个标量ALU单元组成，矢量单元可执行4个MAD指令操作，不过标量单元不能执行MAD指令，因此每组渲染管线依然是每周期执行4个MAD指令的能力。

区别在于，Adreno 220的运行频率为266MHz，Adreno因为28nm工艺的优势提高到了400MHz，这也是高通宣称Adreno 225性能比Adreno 220提高了50%的原因。

随着四核APQ8064处理器的上市，高通处理器的GPU目前已经转向了Adreno 320了，骁龙S4的升级版骁龙600集成的也是Adreno 320，不论架构还是性能都比之前的Adreno 22x系列都有明显优势。

虽然前面的220/225中高通也说是统一渲染架构，但是Adreno 320才是高通第一款真正意义上的统一渲染架构的移动GPU，支持最新的OpenGL ES 3.0规范，加强了GPGPU通用计算的比重，性能比前代Adreno高了3-4倍。即便是目前来说，已上市的四核处理器中APQ8064的图形性能也是拔尖的，除了华为的Ascend D2之外，其他5寸1080P手机基本都使用了APQ8064处理器。

Adreno 320架构简介

支持OpenGL ES 3.0

CPU和GPU都可以加速游戏性能提升

FlexRender弹性渲染设计

实测性能大约是Adreno 225的2倍左右

展望与点评

今年初高通又公布骁龙800处理器，与骁龙600继续使用Adreno 320(虽然也会有所改进)不同，骁龙800将使用更新的Adreno 330。高通表示Adreno 330的性能是Adreno 320的1.5倍，计算性能则是它的3倍，而且会支持Ultra HD标准的4K视频，听着非常诱人，不过实际体验还得等相关产品上市再说，也要到下半年了。

无论从哪方面看，高通用6500万美元收购AMD旗下的移动图形部门都是一笔超划算的买卖，Adreno带给高通的收益恐怕是一百个收购额也比不了的。

对高通来说，就算不考虑Adreno图形核心的性能如何，仅凭着高通在CPU和基带上的优势，Adreno都能在整个市场上保留一席之地，更何况目前的Adreno 320依然是图形性能最高的移动GPU之一，大者恒大还是有道理的。

Imagination的PowerVR 6系列迟迟不出，预计今年的移动GPU王者就要在Adreno 330和下文的Tegra 4中产生了。

后来居上的爆发户——NVIDIA的GeForce ULP

在移动处理器这个江湖里NVIDIA算是后起之秀，前一篇的移动处理器门派划分中我们将其归为“峨嵋派”，虽然开宗立派时间短，但是后来居上，再加上NVIDIA在PC市场的影响力，他们虽然是资历最浅的外来户，但在GPU技术上实力雄厚，前途无量。

Tegra系列从AP2 2500开始到现在也出过四代产品了，其GPU核心也沿用了GeForce的命名，一般称为GeForce ULP(Ultra-low power)，超低功耗之意。第一代的Tegra虽然也曾被微软的Zune HD青睐，不过目前来说已经是古董级产品了，NVIDIA官网也将其除名，介绍的只有Tegra 2、Tegra 3和Tegra 4，我们也从他们说起吧。

主力产品：Tegra 2、Tegra 3、Tegra 4/4i

NVIDIA的移动处理器往往是发布最早的，Tegra 2是世界首款双核Cortex-A9架构处理器，Tegra 3是首款四核Cortex-A9处理器，Tgera 4则是发布最早的世界首款四核Cortex-A15处理器，这也算是Tegra系列的一个前期优点吧。

双核的Tegra 2频率为1.0-1.2GHz，Cortex-A9架构，GPU中有8个图形单元，分为4个顶点单元和4个像素单元，运行频率则有300、333及400MHz三个版本，支持OpenGL ES 2.0、OpenVG 1.1及EGL 1.4规范，目前依然有少部分手机在用。

Tegra 3是我们的老朋友了，也是NVIDIA目前的绝对主力，四核Coretx-A9架构，GPU中有12个图形单元，分为4个顶点单元，8个像素单元，运行频率有416MHz及520MHz两种，其中微软Surface RT、Google Nexus 7使用的就是416MHz版本，高端手机和平板中使用的则是520MHz版本。

Tegra 4现在已经发布，不过还没有具体产品上市，只能说是今年下半场的主力。与Tegra 3相比，它的架构、工艺都有升级，制程升级到28nm HPL工艺，CPU核心升级为四核Cortex-A15，GPU单元数量则从前代的12个跃升到了72个，实际运行频率约为672MHz。

Tegra 4完整支持OpenGL ES 2.0，并支持大部分的OpenGL ES 3.0技术，除了fp32浮点。

另外还有一个精简版的Tegra 4i，制程工艺也是28nm，CPU核心为四核Cortex-A9 r4p1改进版，GPU单元减少到60个，不过它整合了LTE基带，功耗和发热更适合手机使用。

架构设计：源自NV4x

Tegra2(左)与Tegra 3(右)的GPU架构

Tegra 4i的GPU架构

Tegra 4的GPU架构

Anandtech此前针对Tegra 2、3、4的GPU架构做了一番分析。Tegra的核心依然是传统的顶点和像素单元分离设计，即便是新一代的Tegra 4也不例外，并没有使用统一渲染架构。

Tegra 2有一组顶点和一组像素单元，每组各有4个ALU运算单元，Tegra 3的顶点单元不变，增加了一组像素单元，变成4+8形式。Tegra 4的顶点单元有6组，24个ALU单元，像素单元则由4组，每组包含12个ALU单元，24+48的形式组成了72个图形单元。

Tegra 4i则在Tegra 4的基础上砍掉了三组顶点单元，还剩下12个定点单元，48个像素单元不变，总结是60个图形单元，不过砍掉了一半的顶点单元意味着其三角形生成率会大幅下降。

NVIDIA这几代的Tegra处理器的GPU核心架构其实没什么变化，都源于早期的NV4x架构，每个ALU单元每周期可执行4个MAD指令，Tegra 4的顶点单元规模是Tegra 3的6倍，像素单元管线是Tegra 3的2倍，不过每组管线的规模又是Tegra 3的3倍，像素单元的规模总体还是Tegra 3的6倍。

不过Tegra 4的GPU核心也在效能方面做了改进，增加了L2纹理缓存，提升了像素渲染的最大寄存器(从16提高到24)等等，

另外，Tegra 4的672MHz的运行频率也比Tegra 3的520MHz要高，因此理论性能方面的提升如下:

Tegra 4相对Tegra 3的GPU性能提升

最后，Tegra 4虽然不能完整支持OpenGL ES 3.0规范，不过其中的大部分技术都是支持的，比如多目标渲染、遮蔽查询等新增技术都有支持。

Tegra 4支持OpenGL ES 3.0中的大部分技术规范

Tegra系列GPU优势与不足

1、坚持小核心战略，单位面积性能取胜

与桌面/专业卡中更追求性能的战略不同，NVIDIA在Tegra处理器上反倒谨慎了许多，非常注重控制芯片的核心面积，Tegra 4在规格大幅提升的同时依然将核心面积控制在了80mm²左右，其中GPU核心面积只有10.5mm²，与竞争对手相比小了许多。

GPU核心面积都被换算到了等效28nm工艺下

这就给NVIDIA带来一个宣传上的优势——单位面积性能足以秒杀目前的竞争对手，不论是高通的APQ8064还是苹果的A5X、A6X，在这个指标上都被斩落马下。

当然了，Tegra 4的绝对性能也不差，此前官方公布及现场演示都表明其安兔兔得分高达3.6万左右，比目前的跑分天王APQ8064最高2.1万分的成绩高了50%。

2、游戏优化不错，THD专属给力

虽然NVIDIA在PC平台的游戏优化被AMD的Gaming Evolved慢慢超越，但是移动平台是他们的心头肉，跟厂商合作的优化还会继续深入，Tegra系列还有专属的THD游戏，专门为NVIDIA的处理器优化。

此前的一个例子就是EPIC的《史诗城堡》demo，虽然Tegra 3的理论性能被高通APQ064打个落花流水，不过在这个demo测试中Tegra 3的成绩普遍好于APQ8064，更大幅领先三星的Exynos 4412等处理器。

没有Tegra 4，你游戏中的妹子都不够靓

Tegra处理器其实还有一个最大的优点，那就是相关设备价格比较便宜。以四核Tegra 3为例，它已经在两千甚至一千元内的四核手机中有过应用，北斗小辣椒、中兴V985、天语大黄蜂等等其中的代表，影驰的999元四核平板使用的也Tegra 3处理器，看来黄总为了出货量也在价格上拼了。

说到Tegra处理器的不足，那就是发布早上市晚的惯性了，很容易让后来者超越。Tegra 3是最早的四核Cortex-A9，但是等到上市铺货的时候别的厂商的28nm四核都来了，Tegra 3性能上不再有优势了，40nm制程的功耗也比别人高。Tegra 4现在也是差不多的情况，1月份发布的，平板和手机要想用上Tegra 4恐怕得到下半年甚至年底了。

另外一个让人揪心的就是功耗了。Tegra 4迟迟不能应用就多少受到了这方面的影响，据分析Tegra 4的TDP功耗高达5W，用在手机和平板中还有很大的难度。公平地说，功耗升高是所有四核Cortex-A15处理器都要面对的问题，但是谁让Tegra 4最早发布呢，它必然第一个承受这个非议。

未来展望及点评

Tegra 4还没有上市，NVIDIA又在前不久的GTC 2013大会上规划好了Tegra 5以及Tegra 6了，与目前的架构相比，后两者的变化可谓革命性的。

Tegra 5代号Logan，它将会进入统一渲染时代，使用Kepler核心，OpenGL ES规范上一跃升级为OpenGL 4.3，同时还支持CUDA on ARM，意味着移动处理器上也能用上CUDA加速了，再加上OpengGL 4.3支持，Tegra 5明年有可能成为最先进的移动GPU之一。

回头来看，随着GPU在移动处理器中分量越来越重要，在GPU技术上有先天优势的NVIDIA未来还是值得看好的，目前的Tegra 3和Tegra 4还是小改款，但是明年的Tegra 5意义大不同了，超强的技术规范及GPU通用计算的加入有望大幅提升GPU的应用范围，这在ARM处理器阵营中可算是蝎子尾巴——独一份了。

性能出众的“小众”产品——Vivante的GCxx

与PowerVR、Mali、Adreno等明星相比，Vivante公司的GC系列GPU核心就不太为人熟知了，就连市场份额比它少的Tegra系列都比Vivante知名。去年让Vivante露一大脸的是华为旗下的海思K3V2，这颗号称“世界最快四核”的移动处理器在华为去年的Ascend D1四核、荣耀2四核以及今年初的Ascend D2、6.1寸超大屏的Mate上全面应用，其16核GPU实际上就源于Vivante的GC系列GPU。

华为的K3V2处理器使用的就是Vivante的GC4000核心

Vivante其实还是挺有资本的，创立于2004年，创始人好像还是个华裔，他们专注于移动GPU市场，2010年的时候就有超过40家授权单位，主要客户有Marvell、飞思卡尔等，很多人不知道的是国内的瑞芯微电子的RK2918以及自主知识产权的国产明星“龙芯-2H”使用的也是Vivante的GPU核心。

Vivante给人的感觉就是“小众”，好听点的说法是“Vivante虽然小众，但是性能出众”，难听点的说法是“Vivante的GPU性能出众，但是市场小众”。只不过从市场统计上看，Vivante的GC系列在移动GPU的份额上仅次于PowerVR、Adreno以及Mali之后，2012年上半年的全球份额是9.8%，比Tegra的2.5%份额要高得多。

说起来Tegra才是小众，他们是大众产品呢，只不过Vivante在消费级的智能手机和平板领域确实露面太少，给人的印象是“小众”。

主力产品：GC400、GC800、GC4000

Vivante目前的主力产品是支持OpenGL ES 2.0的GC400、GC800、GC1000、GC2000及GC400，其中GC400是基础，GC1000-4000都是以它为基础设计的多核产品，GC4000就是8核，华为的K3V2宣称的16核GPU实际上是2个GC4000核心。

GC400使用的还是TSMC 40nm LP工艺，理论核心面积为1.2mm²，实际电路面积是1.6mm²，三角形生成率是15M Tri/s，像素填充率是150M pix/s，理论性能是3GFLOPS，8核的GC4000就是GC400的8倍，16核自然就是16倍了。

双核GC4000的理论性能可达96GFLOPS，核心面积24.8mm²，单纯的数据指标不好理解，我们拿它与苹果A5X做个对比，后者使用的PowerVR 554MP4核心，理论性能为76.8GFLOPS，GPU核心面积约为36.6mm²，32nm工艺，这说明双核GC4000在制程工艺落后的情况下核心面积更小，但是理论性能更强。

GC系列性能如此强劲的一个原因还在于它的高频率，他们的GPU通常有AHB和AXI两个接口，AHB总线下运行频率为400MHz，AXI总线下可达600MHz，这可比A5X的GPU 250MHz的频率高得多。

Vivante未来的产品规划

至于未来的产品规划，2011年的路线图上就规划了性能更强的GC600和GC800，原本预计在2012年Q1季度亮相，使用的工艺甚至会升级到20nm，不过目前来看Vivante最成熟最高端的产品还是GC4000，后两者并未见到产品发布及上市。

Vivante GC系列GPU特点与点评

现在来汇总一下Vivante的GC系列GPU核心的一些特点。

1、支持业界标准，兼容多种API规范

这一条本来是移动GPU厂商的基本工作，但是鱼龙混杂的市场Vivante对业界标准的支持还是非常好的，因为他们本身就是标准制定者Khronos中的成员，对OpenGL ES、OpenCL、OpenVG以DX等规范支持的比较好。

当然了，Vivante的硬件还要继续升级，目前的GC4000还只支持OpenGL ES 2.0，也没有采用统一渲染架构，制程工艺也应该升级。

2、最高的性能/面积比

前面的规格介绍中就可以看出GC系列GPU的优点是核心面积小，理论性能高，二者集合在一起就是Vivante的GPU有着业界最高的单位面积性能。

与ARM的Mali、Imagination的PowerVR相比，GC系列的单位面积三角生成率是其他厂商的3倍，像素填充率是1.5倍，浮点性能是他们的2.5倍。

3、高倍抗锯齿下的低带宽要求

移动GPU开启MSAA抗锯齿之后三角形生成率直线上升，对带宽的要求更高，Vivante的GC系列对带宽的要求就没有其他厂商那么高，性能损失也更小。

4、为低功耗优化

GC系列根据GPU不同负载可分为活动、空闲、待机及睡眠多种状态，可以根据需要实现不同的性能配置。整合了先进的频率/功耗门控电路，可以动态开关GPU电路，独立的PLL电路还可以实现不同的频率调节，厂商还可以通过软件来调节GPU的功能。

Vivante的GC系列GPU还有一个优势前面也提到了，除了支持标准的纹理压缩格式外，它还支持S3TC压缩格式，跟Tegra是通用的，所以理论上THD游戏在Vivante的GPU上也会有同样的特效。

说完了优点再来看看它的不足。Vivante的GC系列GPU号称有着业界最高的单位面积性能，而且双核GC4000的配置在性能上已经秒了iPad4，但是实际使用中并没有这么夸张。就算最常见的跑分测试中它的3D性能不仅没达到iPad4的高度，高通的Adreno 320都要好很多，再算上有些游戏还存在兼容性问题，Vivante的GC4000有点名不副实。

造成这个现象的原因主要是GC4000核心在智能手机/平板上应用较少，开发商优化不足，但是Vivante自己的因素也不可忽视，其强大到逆天的理论性能是通过高频率实现的，但是实际使用中为了节能，GPU核心频率通常很很低，游戏中因为功耗和发热的限制也不会全速运行，这就形成了强烈的对比——跑分强，游戏性能一般。

具体的例子就是华为手机的作弊门。有人解析了华为手机的文件后发现荣耀2四核存在着对主要测试程序的优化，跑测试时超频运行。现在看来加压超频的可能并不大，更可能的情况是：测试时GPU运行在最高的600MHz频率下(GC4000可支持的最高频率)，但是实际使用中频率往往只有200-300MHz左右，这种反差带给人的感觉好像是华为手机在超频运行，是在作弊。

总之，Vivante的GC系列GPU核心核心面积小，理论性能强大，有着业界最高指标的单位面积性能比，但是Vivante的主要客户并不在智能手机和平板市场上，所以实际应用中优化不够给力，跟理论性能有很大差距，而缩小这个差距也不是一天两天就能完成的，Vivante及华为还得努力。

话说回来，期待他们继续优化GPU和应用并不意味着华为及Vivante的产品不好，从华为最近发布的固件升级及用户的反馈来看，主流的游戏中K3V2并没有什么问题，大型3D游戏同样玩得转。

机是一样的机，GPU上比高低

移动处理器的核心架构有ARM罩着(Intel的X86架构另算)，各家厂商在CPU部分基本没什么区别，即便是自行开发架构的高通也会与ARM保持兼容，移动处理器从PC的小跟班一跃成为能跟PC抗衡的大产业也多少得益于这种统一。

相比之下，移动GPU就有点各自为政的感觉了，某个游戏在不同处理器上不仅有性能高低的区别，画质、兼容性等方面还有三六九等之分，安卓阵营的碎片化不只是Google的问题吧，GPU也多多少少做了几分“贡献”。

在列举的五家移动GPU厂商中，Imagination目前实力最强、份额最高，不过我们觉得更有危机感的正是他们，因为他们是专业的GPU IP授权厂商，自己不生产GPU产品，产品应用与否全靠授权合作伙伴的选择，但是任何一个有远大目标的公司都不会任由自己的产品核心掌控在别人手里，Intel和苹果目前已经是Iimagination的大股东了，说不定哪天有兴趣就把它给控股了。

Imagination也不介入CPU部分，不过他们实际上也有自己的处理器架构——Meta SoC，今年还重金收购了MIPS公司，MIPS架构也在融入Meta处理器中。除此之外，Imagination还收购了光线追踪加速卡公司Caustic，R2500/2100渲染卡都已经出货，他们也不会鸡蛋都放在PowerVR这一个篮子里。

至于ARM和高通，他们的GPU份额不低，ARM能提供CPU+GPU一整套方案，高通的CPU+Adreno GPU+基带的组合也是无往不利，前途也是光明的。

Vivante的GPU虽然理论性能极其强大，但它跟Imagination一样都是专业的GPU IP授权公司，份额则比后者少得多。我们觉得华为还是出手收购了它吧，就算十几亿美金的价格，华为也能承受得了，而且Vivante不是AMD或者Intel、NVIDIA这样的公司，美帝政府的阻力也不大，不行就让报纸和央视整高通，理由就是高通的3G专利严重影响了我们的国家安全，玩不死他们。

还有就是NVIDIA，要说做GPU他们的技术实力是这几家公司中最强的，但是包括目前的Tegra 4在内的GPU架构其实还是相对保守，NVIDIA预定明年推出的Tegra 5才更有革命性。Tegra 5的架构会升级到真正的统一渲染架构，而且会选择主流的Kepler架构，支持的技术规范也跨代升级到了OpenGL 4.3，这是OpenGL ES 3.0的超集，DX11之类的规范应该也能支持。

面对比重越来越大的GPU加速，NVIDIA直接把专业市场的CUDA加速带到了ARM平台上，这意味着以前很多需要CPU乃至单独的应用处理器才能进行的任务都可以让GPU来完成，这是所有GPU发展的大趋势之一，也是NVIDIA准备的杀器。

如果你也被NVIDIA成功洗脑了，那么下边这句话可以把你拉回现实：虽然移动GPU的性能和技术决定了未来，NVIDIA在这方面有优势，但是市场成败的关键还要看厂商的功耗控制，在目前电池技术龟速前进的情况下，没有可靠续航的移动设备都是在耍流氓。

你可能感兴趣的:(GPU)

【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
2021-06-07 Do What You Are Meant To Do 春生阁
Don’tgiveupontryingtofindbalanceinyourlife.Sticktoyourpriorities.Rememberwhat’smostimportanttoyouanddoeverythingyoucantoputyourselfinapositionwhereyoucanfocusonthosepriorities,ratherthanbeingpulledbyt
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【大模型】triton inference server idiotyi 大模型自然语言处理语言模型人工智能
前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。本文主要是使用tritoninferenceserver部署大模型的简单流程示例。目录1.整体流程2.搭建本地仓库3.服务端代码4.启动服务5.客户端调用1.整体流程搭建模型仓库模型配置服务端调用代码docker启动服务客户端调用
Upstage 将发布新一代 LLM “Solar Pro “预览版吴脑的键客人工智能人工智能
SolarPro是最智能的LLM，经过优化可在单GPU上运行，性能超过微软、Meta和谷歌等科技巨头的模型。加州圣何塞2024年9月11日电/美通社/–Upstage今天宣布发布其下一代大型语言模型(LLM)SolarPro的预览版。加州圣何塞2024年9月11日电/美通社/–Upstage今天宣布发布其下一代大型语言模型(LLM)SolarPro的预览版。该预览版作为开源模型免费提供API访问，
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
大模型框架：vLLM m0_37559973 大模型大模型通义千问 Qwen
目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。二、安装vLLM2.1使用GPU进行安装vLLM是一个Py
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
Unity3D GPUDriven渲染详解 Thomas_YXQ 开发语言 Unity3D 架构游戏 Unity
前言Unity3D中的GPUDriven渲染技术是一种通过最大化GPU的利用，减少CPU负担，从而提高渲染效率和帧率的方法。其核心思想是将更多的渲染任务转移到GPU上，充分利用现代图形硬件（显卡）的性能。以下是该技术的几个关键组件和它们的作用：对惹，这里有一个游戏开发交流小组，大家可以点击进来一起交流一下开发经验呀！1.BatchRendererGroup(BRG)BRG是Unity中用于批处理渲
1. 下载安装RKNN的docker镜像 jcfszxc RKNN系列 c++Rockchip
安装好docker：1.Docker的安装进入网盘，下载镜像文件：网盘链接：https://console.zbox.filez.com/l/I00fc3密码：rknn下载最新的版本，当前最新版本2.1.0，（[[2024-09-01]]）：下载路径：GPU-Group01的分享/RKNPU2SDK/2.1.0/release/rknn-toolkit2-2.1.0-cp38-docker.tar
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
项目实战 ---- 商用落地视频搜索系统（10）---后台搜索Cache优化 PhoenixAI8 AI Python 商用视频搜索系统 vector db milvus redis cache
目录背景技术实现策略视频预处理阶段的cache技术视频搜索阶段的cache技术技术实现预处理阶段cache策略实现逻辑代码运行结果问题及注意点搜索阶段cache策略实现系统配置层面逻辑低版本GPUCPU本项目的配置高版本描述goahead策略cache加载策略本项目配置应用层搜索参数的配置配置项本项目的实际配置背景但目前为止，视频搜索系统已经可以正常使用和运转。并且他是基于多策略搜索算法的，能够在
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
RTX 4090深度学习性能实测奉上！模型训练可提升60~80% 赋创小助手服务器深度学习人工智能图像处理自动驾驶
近期，我们对RTX4090涡轮版进行了完整的整机测试，本篇文章将分别围绕单卡，4卡，8卡RTX4090性能测试结果展开分享，以全面评估其相比上代RTX30系列的性能优势。首先让我们一起看看本次测试的硬件配置。测试硬件配置简单介绍一下本次使用的平台为超微SYS-420GP-TNR，这款GPU系统针对AI和图形密集型工作负载的灵活设计，4U双处理器（第三代英特尔®至强®），双根GPU系统，最多10个P
深度学习的零碎知识点 csdn_now 深度学习人工智能
显卡内存什么是显卡内存简单来说就是，Windows会在物理显存/「专用GPU内存」不够用或只有集成显卡的情况下，将物理内存RAM当作GPU的虚拟显存/「共享GPU内存」来使用。什么是Windows「共享GPU内存」，它与VRAM有什么不同(sysgeek.cn)平常说的显卡内存就是【专用GPU内存】。如何查看内存大小Win10任务管理器中的"专用GPU内存"是怎么回事？“共享GPU内存”又是什么?
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
人工智能-GPU版本机器学习、深度学习模型安装 bw876720687 人工智能机器学习深度学习
背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU或者GPU的调整？解决方案问题一：安装GPU版本的LightGBMLightGBM默认不会安装GPU支持版，需要手动编译以启用GPU。以下是在Linux和Windows上编译GPU版本LightG
入门篇，带你了解CPU, GPU, TPU, NPU, DPU 今夕是何年，视觉算法部署深度学习算法人工智能
目录CPU(中央处理器)GPU(图形处理器)TPU(张量处理单元)NPU(神经网络处理器)DPU(数据处理器)CPU(中央处理器)专业介绍：CPU是计算机系统的核心，负责执行操作系统和应用程序的指令。它由多个核心组成，每个核心可以独立执行任务。CPU的设计重点是处理复杂的逻辑运算和顺序任务，如分支预测、指令调度等。现代CPU通常包含多个层级的缓存（如L1、L2和L3缓存），以减少访问主存储器的延迟
LLM大模型学习：LLM大模型推理加速七七Seven～学习人工智能 transformer 深度学习 llama
文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一，今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。目录一、模型优化技术二、模型压缩技术三、硬件加速四、GPU加速五、模型并行化和分布式计算技术一、模型优化学习常见的模型优化技术，如模型剪枝、量化、分片、蒸馏等，掌握相应的实现方法。1.1剪枝
鸿蒙（API 12 Beta6版）GPU加速引擎服务【自适应VRS】移动开发技术栈鸿蒙开发 harmonyos 华为 openharmony 鸿蒙鸿蒙系统 VRS 引擎
XEngineKit提供自适应VRS功能，其通过合理分配画面的计算资源，视觉无损降低渲染频次，使不同的渲染图像使用不同的渲染速率，能够有效提高渲染性能。接口说明以下接口为自适应VRS设置接口，如要使用更丰富的设置和查询接口。接口名描述constGLubyte*HMS_XEG_GetString(GLenumname)XEngineGLES扩展特性查询接口。GL_APICALLvoidGL_APIE
安装tensorflow2.5.0 发现 tensorflow 和 numba 两者对应Numpy版本冲突 GJK_ tensorflow numpy 人工智能
问题：python3.8安装tensorflow2.5.0发现tensorflow和numba两者对应Numpy版本冲突tensorflow-gpu2.5.0requiresnumpy~=1.19.2numba0.58.1requiresnumpy=1.22解决方法：将numba降低版本为0.53pipinstallnumba==0.53再将numpy版本改为1.19.2pipinstallnum
本地部署大语言模型详细讲解程序员小羊！杂文语言模型人工智能自然语言处理
大家好，我是程序员小羊！前言：本地部署大语言模型（LLM，LargeLanguageModel）需要相应的硬件资源和技术栈支持，如GPU计算能力、大量内存、存储空间，以及模型部署框架。以下是如何在本地部署大语言模型的详细解释，包括选择模型、硬件需求、安装必要的软件和工具、下载和配置模型、以及优化运行性能的建议。一、前期准备1.硬件需求部署大语言模型的硬件要求主要取决于模型的大小和运行任务的复杂度。
验证resneXt，densenet，mobilenet和SENet的特色结构 dfj77477 人工智能 python
简介图像分类对网络结构的要求，一个是精度，另一个是速度。这两个需求推动了网络结构的发展。resneXt：分组卷积，降低了网络参数个数。densenet：密集的跳连接。mobilenet：标准卷积分解成深度卷积和逐点卷积，即深度分离卷积。SENet：注意力机制。简单起见，使用了[1]的代码，注释掉layer4，作为基本框架resnet14。然后改变局部结构，验证分类效果。实验结果GPU：gtx107
Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda 徐小妞66666
一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址)二.此时make产生错误/usr/bin/ld:cannotfind-lcuda1.查看MakeFile文件找到该行代码：LDFLAGS+=-L/usr/local/cuda/lib64
【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1) 2401_83703835 程序员 python 深度学习 pytorch
cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu不依赖于本地主机上cuda和cudnn在conda环境中安装，不依赖于本地主机上已安装的cuda和cudnn版本，灵活方便。这里，先说一下已经测试通过的组合：*python3.6,cu
linux查看jupyter运行,在Linux服务器上运行Jupyter notebook server教程天启大烁哥
在Linux服务器上运行Jupyternotebookserver教程很多deeplearning教程都推荐在jupyternotebook运行python代码，方便及时交互。但只在本地运行没有GPU环境，虽然googlecolab是个好办法，但发现保存模型后在云端找不到模型文件，且需要合理上网才能访问。于是想给实验室的服务器配置jupyternotebook，供本机远程访问。踩了不少坑，码一下教
ONNX Runtime、CUDA、cuDNN、TensorRT版本对应可keke ML&DL pytorch deep learning
文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime的安装官方文档注意，到目前为止，onnxruntime-gpu在CUDA12.x和CUDA11.x下的安装命令是不同的，仔细阅读官方文档。验证安装python>>>importonnxru
ONNXRuntime与CUDA版本对应 zy_destiny 部署 YOLO onnxruntime onnX 部署 cuda python
onnxruntime-gpu版本可以说是一个非常简单易用的框架，因为通常用pytorch训练的模型，在部署时，会首先转换成onnx，而onnxruntime和onnx又是有着同一个爸爸，无疑，在op的支持上肯定是最好的。通常在安装onnxruntime时，需要将其版本与pytorch版本和CUDA版本进行对应，其中ONNXRuntime与CUDA版本对应关系表如下表所示。ONNXRuntimeC
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f