黄仁勋GTC 2025意气风发，英伟达GPU面临挑战，AI行业规模定律受冲击

时间：2025-03-21作者：admin分类：大千世界浏览：115评论：0

一身皮衣黄仁勋，GTC 2025上意气风发。

英伟达的股票最近跌得比较厉害，甚至跌到了 10 年来的最低点。然而，这并没有影响到老黄对最新的 GPU 们充满信心。

2 月初的时候，DeepSeek 的发布在 AI 领域引发了巨大的波澜。有一个是中国团队的产品，它仅仅使用了少量的以 A100 为主的低端 GPU，通过蒸馏现有的超大模型，就达成了以 H100 为代表的高端 GPU 才具备的性能。

高端 GPU 不是必须的。谁还会大量采购你老黄的 Hopper 和 Blackwell 核弹呢？过去在 AI 行业被当作绝对真理的“Scaling Law”（规模定律），也就是那种认为模型参数量、数据集以及训练成本越多越好的观念，也受到了严重的冲击。

这几年谷歌、Meta、微软等互联网大厂大量采购 H100 芯片来维持规模，他们的目的就是想用算力来分出胜负、决定生死。如今根本无需如此庞大的规模，同样能够让大模型具备可与 OpenAI o1 相媲美的性能。

在某一时刻，有声音不断宣称 DeepSeek 会让英伟达走向末路，尤其是在海外的社媒平台上，这里的发酵速度最快，传播态势最为凶猛。有一位 X 网友甚至直接坦言“英伟达的一切都将开始瓦解”。在这段时间里，英伟达的股票一天下跌 13%以及一天下跌 17%都已经成为了常见的情况。

不过，有一种声音称，从长远角度来看，DeepSeek 的成功对英伟达是有利的。

DeepSeek 表明能够通过“蒸馏现有超大模型”的方式来训练性能优良的大模型，不过只是无需使用 H100 芯片这类性能强劲的设备罢了，并非完全不依靠计算卡。A100 计算卡也是英伟达旗下的产品。

玩家的门槛降低了，这样一来，入场的玩家自然就会越来越多。从市场总量的角度来看，对算力的需求还是会上升的。英伟达是全世界最大的卡贩子，所以它总会卖出更多的计算卡。

要蒸馏现有的超大模型，得先有性能出色的超大模型存在。到底还是需要像 H100 这样的计算卡集群来训练超大模型，这就像是一个“先有鸡还是有蛋”的问题。

可以说这两种声音各自都有其道理，然而大家最为期望知晓的依然是老黄本人所发出的声音。

这次GTC 2025，我们终于等到老黄的亲自回应。

还是那个GPU霸主

按照惯例，我们首先来回顾一下这场“科技盛宴”。这场“科技盛宴”的门票价格高达 1 万美元。

英伟达主要发布了以下内容：四款芯片架构、两款 AI 电脑、一款 AI 训练底层软件，并且展示了具身机器人相关的进展。其他内容不再赘述。

在全新的超级芯片产品方面，GB300 NVL72 芯片是以 Blackwell Ultra 架构为基础的。它是上代最强芯片 GB200 的继任者。其推理能力是 GB200 NVL72 的 1.5 倍。提升幅度并不显著。甚至在大会上，GB300 的直接对比对象还是 2 年前的 H100。

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡__英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡

从市场反应方面来看，大部分人对 GB300 并不认可。它不像上一代 GB200 那样给人带来“横空出世”的惊喜感。若要说最大的升级点，或许是 HBMe 内存提升到了 288GB，这就有点像是“苹果今年发布的新机是 2TB 版本的 iPhone 16 Pro Max”那种感觉。

英伟达未来的芯片架构规划是重头戏。下代超级芯片是 Rubin NVL144，它比 GB300 NVL72 要强 3.3 倍。下下代的 Rubin Ultra NVL576 性能是 GB300 NVL72 的 14 倍。从画饼给出的性能来看，未来大概率仍会由英伟达掌握 GPU 算力王座。

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡_英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡_

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡__英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡

从发布的产品方面来看，英伟达在 GPU 领域依然是霸主。其领导地位已经开始向 AI 领域拓展。它们不但将产品技术路线图更新为一年一更，未来三年的产品堪称非常有潜力，围绕 AI 相关的软件建设也在快速地推进，NVIDIA Dyamo 很有很大可能会成为未来数据中心的必备配置。

对于DeepSeek的冲击，英伟达似乎也有了解决的办法。

进入“token时代”

他回应的是关于 DeepSeek 诞生以来对公司造成的冲击。

他首先对 DeepSeek 进行了全面的夸赞，说 DeepSeek R1 模型是“极为出色的创新”，同时也是“属于世界级的开源推理模型”。并且他表现得很淡定，还表示不明白大家为何会将 DeepSeek 视为英伟达的末日。

关于因 DeepSeek 而引发的有关 ScalingLaw 撞墙的讨论，老黄在会议上给出了他自己的看法。

他首先在大会上进行了一次操作，即对 Scaling Law 进行了迭代更新。

_英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡_英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡

现在他把 Scaling Law 具体分成了 PRE-TRAININGSCALING、POST-TRAINING SCALING、TEST-TIMESCALING 这三个部分。老黄的意思是，当 AI 步入不同阶段时，对 Scaling 的需求会持续上升。

这里要提及，老黄觉得 AI 的发展包含四个阶段，分别是感知人工智能（Perception AI）、生成式人工智能（Generative AI）、代理人工智能（Agentic AI）以及未来的物理 AI（Physical AI）。而当下我们正处在代理人工智能阶段。

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡__英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡

现阶段因为推理模型和 AI 代理的爆发，实际上是更需要进行 Scaling，也更需要算力。

其背后的关键是token。

以推理模型为例，在模型进行推理的过程中，token 的消耗急剧上升。按照老黄的说法，我们不但要使 token 的吞吐量提升十倍，而且要具备比过去多十倍的算力来提高 token 的输出速度，最终，所需的算力是之前的 100 倍。

从技术层面来看，这是有一定道理的。与传统的生成式模型，像 GPT 相比，我们察觉到它没有将推理步骤一一列举出来。先是输入问题，接着就提供答案，中间没有其他环节，答案所展现出来的就是最终消耗的 token 数。

拥有思维链的推理式模型，像大家熟知的 DeepSeek R1 ，会存在一连串的推理过程。在某些时候，这一连串推理过程的字数有可能比答案的字数还要多。

R1 模型能够进行推理，原因是它会把输出的 token 送回上级去重新思考和推理。就像比喻大师老黄所说的那样，“每个 token 都会自我怀疑”。在这种不断的怀疑与论证过程中，形成了推理的过程。不过，这也会使算力和 token 的消耗增多，推理模型比传统生成式模型多消耗的 token 并非 2 倍，而是 20 倍。

所以，当我们使用推理模型时，需要将一连串的思考和推理过程在前台展示出来。这不仅是因为用户能够通过大模型的推理过程来介入并修正答案，还因为这些过程并非是无偿提供的，不是免费的，而是在消耗一个个 token，它们代表着真金白银，是花了钱的地方，所以肯定得让用户看到。

市面上的推理模型在不断增多，更多的传统模型也开始陆续参与到推理过程中，像谷歌的 Gemini 就是其中之一，这样一来，最终 token 的消耗将会以指数级的速度上升。

老黄坚信 Scaling Law 没有失效，这便是他的底气所在。在会议上，老黄将传统模型 Llama 3.3 70B 与 DeepSeek R1 671B 进行了对比，并且统一让它们回答一个复杂问题。最终，前者消耗了 400 多个 token 但结果无法使用，而后者的结果十分完美，不过却足足消耗了 8559 个 token。

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡_英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡_

或许蒸馏大模型的点子能节约一些算力，而这些节约下来的算力又会在推理过程中被消耗掉，说不定这就是 AI 算力中的能量守恒呢。

DeepSeek让英伟达GPU卖得更好

一个事实是，在这个高 token 消耗的时代，英伟达的 GPU 卖得更猛了，这与黄仁勋的激情论证无关。

彭博社有报道称，OpenAI 预期在“星际之门”的首期计划里，要构建一个能够容纳 40 万个英伟达 AI 芯片的数据中心综合体。如果全部装满，那它将成为世界上最大的 AI 算力集群之一。

马斯克对算力极为推崇，他旗下的 xAI 已与戴尔达成 50 亿美元的协议，此协议用于在孟菲斯建设超级计算机的 AI 服务器；Meta 也宣布了计划，即要拥有相当于 600,000 块英伟达 H100 芯片的算力。

国内的阿里、小米、腾讯等公司也把部署海量算力当作主要目标。这些公司背后的显卡供应商，毫无疑问大多来自英伟达。推理模型铺开后，大公司们对计算卡和算力的热情依然未减，看来至少大公司们仍认为未来是算力的时代。

在个人本地部署这个领域当中，DeepSeek R1 并没有切实地将个人用户的算力负担减轻下来。

2 月中旬，全网出现了本地部署 DeepSeekR1 蒸馏模型的热潮。然而，以个人的经验来讲，若要获得较好的模型性能，对电脑配置，也就是算力的要求是比较高的。

以 RTX 4080 16GB 显卡作为例子。它拥有 9728 个 CUDA 核心。16GB 的 GDDR6X 显存，其显存带宽为 736GB/s。在显卡当中，它已经属于高端的范畴。

用它在本地部署 14B 的 DeepSeekR1 蒸馏模型时，大部分推理速度为 20 - 30 tokens/s。要分析深度问题，往往需要等待超过 10 分钟。

如果用它来部署 32B 的蒸馏模型，那么推理速度会下降。下降后的速度为 5 - 15 tokens/s。要生成同样的回答，就需要等待超过 30 分钟。

这样的效率显然是不行的。如果想要提高推理速度，有两个办法：

部署更小参数的蒸馏模型，然而推理的精度会明显下降，并且答案的可靠性也会明显下降。

选择配置更高的硬件，例如 RTX 5080 或 5090。用 5090 来部署 32B 的蒸馏模型，这样推理速度能够达到 50 - 60 tokens/s。效率有了明显的提升，然而却让老黄售卖显卡的计划得以实现。

也许对于大多数人来说，本地部署大模型的算力条件，还不如直接打开腾讯元宝来得高效。

因此，“蒸馏模型节省训练算力”是从 DeepSeek R1 引申出来的，而这已经被“推理模型消耗算力”所抵消。这给英伟达带来了全新的机遇，也就是说 DeepSeek 的出现，一方面为英伟达关上了一扇门，另一方面又为英伟达打开了一扇窗。

最终，我们得承认从长远角度看，算力的需求会持续增加，这对英伟达是利好的。尽管今年的Blackwell Ultra存在挤牙膏的情况，但在后面几年，芯片架构都会有显著的算力提升。当各大厂的算力变得紧张时，老黄的那些高性能产品就又有能够充分施展才能的机会了。

贩卖token焦虑？

在 GTC 2025 中，凡是涉及 AI、GPU、算力的部分，老黄都与 token 相关联。甚至有一些好事的媒体特意对他在会上提及“token”的次数进行了统计，这还挺幽默的。

在新的 Scaling Law 时代，token 似乎成为了英伟达的救命之物。从逻辑方面来看，老黄的观点是有其合理性的。然而，如此频繁地重复一种逻辑，就如同我们在文章里连续书写 100 次“token”一样，难免会让人觉得，英伟达显得有些过于激动和疯狂。

农历新年之后，英伟达的市值减少了约 30%。此次发布会上的黄仁勋，不再具备技术大拿的风范，不再像是“全世界最聪明的科学家”以及“全球最牛公司的 CEO”，反倒像是一个啰啰嗦嗦的金牌销售，凭借贩卖 token 焦虑这种方式，使大家坚信英伟达依然掌控着未来。

投资者的信心并非源于推销和布道，而是源于产品。今年下半年面世的 GB300 实际上没有太多亮点，所描绘的前景又较为遥远。这种情况反映在股价上，即发布会结束后，英伟达的股价依然下跌了 3.4%。

更令我哭笑不得的其实是价值 3000 美元的 DGX Spark。官网披露的信息显示，这款产品的 128GB 内存，其带宽仅为 273GB/s。

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡_英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡_

老黄将其定义为“可用于本地部署”的 AI 电脑，然而其性能并不令人满意。首先，即便不提及满血版 671B 的 DeepSeek R1，运行大部分 32B 的模型，也只能达到 2 - 5 tokens/s 的输出效率。其次，用它来运行传统模型或许还可以，但对于推理模型来说，估计是相当困难的。

它存在的意义或许停留在“促使大家去购买更强的 DGX Station”这方面。然而，倘若你一直都在制造 token 焦虑，那最好能拿出更多能够解决 token 焦虑的产品。

英伟达现在不缺技术和产品，在 GPU 领域处于领先地位，第二名远远落后；真正缺少的是对消费者的诚意。

参考资料：

刚刚，黄仁勋拿出了三代核弹级别的 AI 芯片！这种个人超算每秒能够运算 1000 万亿次，而 DeepSeek 成为了最大的赢家。

第一财经《凌晨，黄仁勋重大宣布！》

继续浏览有关谷歌 H100芯片大模型训练的文章

文章评论

取消回复

黄仁勋GTC 2025意气风发，英伟达GPU面临挑战，AI行业规模定律受冲击

相关文章

文章评论

猜你喜欢

三星发布可折叠智能手机，内置 AI 开启智能新时代