夕小瑶科技说 原创
编译 | 谢年年
要问世界范围内人工智能解决方案谁最“遥遥领先”?
那肯定是英伟达!
然鹅这一情况很有可能会发生变动。
谷歌正在构建自己的人工智能基础设施!
除了谷歌,在软件方面,Meta的PyTorch 2.0和OpenAI Triton同样发展迅速。
AMD的GPUs、英特尔的Gaudi、Meta的MTIA以及微软的Athena,它们的软件栈都处于不同的成熟阶段。虽然软件之间的差距仍然存在,但这个差距已经不像过去那么大了。
在接下来的几个月里,AMD的MI300和英特尔的Gaudi 3都将推出技术上优于英伟达H100的硬件。也许有一天,英伟达的遥遥领先地位将不复存在。
GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):Hello, GPT4!
除了谷歌、AMD和英特尔,英伟达还需要警惕其他小型公司的竞争。这些公司虽然在硬件设计上落后,但他们背后的巨头公司会提供补贴。亚马逊即将推出他们的Trainium2和Inferentia3,微软也将很快推出Athena。
科技巨头们一直试图取代英伟达的位置,在这个市场分一杯羹。
英伟达早在几年前就预见了这种可能性,并启动了一项雄心勃勃且风险重重的多元化战略,尤其是他们在未来几年即将推出的H200、B100和“X100”GPU的硬件规划以及每年更新AI GPU的策略都具有重大意义。
下面这张图是英伟达未来发展计划的路线图:
由于来自谷歌、亚马逊、微软、AMD和英特尔的竞争压力,英伟达加快了B100和“X100”的计划。为了实现研发加速,AMD很有可能完全取消了他们的MI350X计划。
英伟达的目标不仅是超越传统的竞争对手如英特尔和AMD,更是希望能与科技巨头如谷歌、微软、亚马逊、Meta和苹果并驾齐驱。
接下来,让我们一起来看看英伟达在供应链的掌握情况和其他商业策略部署情况。
英伟达值得佩服的一点是,他们过去曾多次表明,即使在资源短缺期间也可以保证产品供应。
英伟达通过承诺不撤销的订单,甚至预付款项,确保了大量的供应来源。他们已经承诺购买了价值111.5亿美元的产品,承担了产能和库存的义务。此外,英伟达还签署了额外的38.1亿美元预付供应协议。
自英伟达创立初期,黄仁勋就积极推动供应链的发展,以实现英伟达的大规模增长目标。他曾经回忆起自己与台积电创始人张忠谋的早期会面。
1997年,我和莫里斯见面的时候,英伟达那年的收入达到了2700万美元,我们有100个员工。可能你们不会相信,莫里斯以前经常亲自打销售电话,甚至上门拜访客户。我会向他解释英伟达的业务,包括我们芯片的大小需求,以及它每年都会变得越来越大。他会定期回访英伟达,让我重复解释这些情况,以确保我真的需要那么多晶圆。次年,我们开始与台积电合作。英伟达的收入,我记得是1.27亿美元,从那时起,我们的年增长率近乎100%,一直持续到现在。实际上,过去10年我们的复合年增长率超过了70%。——黄仁勋与张忠谋的对话节选
▲英伟达纪念张忠谋退休的漫画
当时,张忠谋难以相信英伟达需要如此多的晶圆。然而,黄仁勋坚定地持续下去,并抓住了当时游戏行业的巨大增长机会。英伟达在供应方面的大胆策略取得了巨大的成功,这通常都能为他们带来好结果。当然,他们不得不定期对价值数十亿美元的库存进行清理,但他们在过度订购的事务中仍然获得了积极的收益。
如果一种方法有效,为何要改变呢?
这次,英伟达已经把握了大部分如SK海力士、三星和美光HBM等GPU上游组件的供应。他们HBM供应商下了大量订单,导致整个市场货源供应紧张。
英伟达已经购买了台积电CoWoS的大部分供应。不仅如此,他们还进一步调查并购买了Amkor的产能。
英伟达充分利用了其HGX板或服务器所需的众多下游组件,包括定时器、DSP、光学器件等。对于对英伟达需求犹豫的供应商,英伟达通常会采取软硬兼施的策略。
一方面,供应商可以从英伟达那里获得看似无法想象的大订单;另一方面,他们也可能面临被英伟达从现有供应链中淘汰的风险。只有当供应商对英伟达至关重要,且无法被替代或找到多个来源时,英伟达才会提出不撤销订单的承诺。
所有供应商都认为自己在人工智能领域取得了胜利,部分原因是英伟达向他们大量订购产品。他们都以为自己占据了大部分业务,但实际上,他们是为英伟达的飞速发展提供巨大动力。
大家都知道,英伟达正利用对GPU的巨大需求,进行客户的追加销售和交叉销售。供应链中的许多消息源透露,英伟达会根据多渠道采购计划,制造自家的AI芯片的计划,以及购买英伟达的DGX、NIC、交换机和/或光学产品等多种因素,优先分配给某些公司。
像CoreWeave、Equinix、Oracle、AppliedDigital、Lambda Labs、Omniva、Foundry、Crusoe Cloud和Cirrascale这样的基础设施提供商,将优先享有大量的资源分配权。
英伟达的捆绑策略实施得非常成功。尽管他们之前只是一家规模较小的光学收发器供应商,但他们在一个季度内将业务扩大了两倍。他们预计在未来一年内,出货量将超过10亿美元。这个增长速度远超过他们的GPU或网络硅业务。
这些策略经过深思熟虑。例如,如果你想在Nvidia系统上实现可靠的3.2T RDMA/RoCE网络连接,唯一的方法就是使用Nvidia的NIC。因为英特尔、AMD和博通的竞争力不足,他们的技术仍然停留在200G。
幸运的是,英伟达成功地管理了供应链,使得他们的400G InfiniBand NIC的交货周期显著短于400G以太网NIC。请注意,这两款NIC(ConnectX-7)的硅和板设计是完全一样的。这主要归功于英伟达对SKU的配置,而非真正的供应链瓶颈。这种情况迫使公司选择购买英伟达更昂贵的InfiniBand交换机,而不是标准的以太网交换机。
除此之外,英伟达正在推动L40S的销售,以帮助原始设备制造商获得更多的H100配额。这些制造商面临着需要购买更多L40S的压力,以便得到更多的H100配额。这种策略与英伟达在PC领域的做法相同,即笔记本电脑制造商和AIB合作伙伴必须购买更多的中低端GPU(G106/G107),才能获得更稀有、利润更高的高端和旗舰GPU(G102/G104)的配额。
许多台湾供应链的人被告知,L40S的FLOPS更高,因此比A100更优秀。
但这些GPU并不适合LLM推理。它们的内存带宽不到A100的一半,且没有NVLink。这就意味着,除了非常小的模型外,想要在这些GPU上以良好的总体拥有成本(TCO)运行LLM几乎是不可能的。大批量会导致每秒每用户的令牌数量不可接受,这使得理论上的FLOPS在LLM实践中变得毫无意义。
原始设备制造商(OEM)正面临着支持英伟达的MGX模块化服务器设计平台的压力。这个平台大大简化了服务器设计的复杂性,但同时也使其商品化,引发了更多的竞争,导致OEM的利润率下降。像戴尔(Dell)、惠普(HPE)和联想(Lenovo)这样的公司对MGX持有抵制态度。
然而,台湾的低成本公司,如SuperMicro、广达(Quanta)、华硕(Asus)、千兆(Gigabyte)、和硕(Pegatron)和ASRock,正急于填补这一空白,将“企业人工智能”低成本商品化。
有趣的是,这些参与L40S和MGX炒作游戏的原始设备制造商也可以更好地分配英伟达的主流GPU产品。
在人工智能基础设施板块,谷歌、AMD、英特尔、亚马逊等巨头不甘落后,而英伟达也采取了多元化战略,誓要牢牢守住目前的地位。
未来的市场将会产生怎样的变化呢?我们拭目以待!