黄仁勋GTC 2025意气风发,英伟达GPU面临挑战,AI行业规模定律受冲击
一身皮衣黄仁勋,GTC 2025上意气风发。
英伟达的股票最近跌得比较厉害,甚至跌到了 10 年来的最低点。然而,这并没有影响到老黄对最新的 GPU 们充满信心。
2 月初的时候,DeepSeek 的发布在 AI 领域引发了巨大的波澜。有一个是中国团队的产品,它仅仅使用了少量的以 A100 为主的低端 GPU,通过蒸馏现有的超大模型,就达成了以 H100 为代表的高端 GPU 才具备的性能。
高端 GPU 不是必须的。谁还会大量采购你老黄的 Hopper 和 Blackwell 核弹呢?过去在 AI 行业被当作绝对真理的“Scaling Law”(规模定律),也就是那种认为模型参数量、数据集以及训练成本越多越好的观念,也受到了严重的冲击。
这几年谷歌、Meta、微软等互联网大厂大量采购 H100 芯片来维持规模,他们的目的就是想用算力来分出胜负、决定生死。如今根本无需如此庞大的规模,同样能够让大模型具备可与 OpenAI o1 相媲美的性能。
在某一时刻,有声音不断宣称 DeepSeek 会让英伟达走向末路,尤其是在海外的社媒平台上,这里的发酵速度最快,传播态势最为凶猛。有一位 X 网友甚至直接坦言“英伟达的一切都将开始瓦解”。在这段时间里,英伟达的股票一天下跌 13%以及一天下跌 17%都已经成为了常见的情况。
不过,有一种声音称,从长远角度来看,DeepSeek 的成功对英伟达是有利的。
DeepSeek 表明能够通过“蒸馏现有超大模型”的方式来训练性能优良的大模型,不过只是无需使用 H100 芯片这类性能强劲的设备罢了,并非完全不依靠计算卡。A100 计算卡也是英伟达旗下的产品。
玩家的门槛降低了,这样一来,入场的玩家自然就会越来越多。从市场总量的角度来看,对算力的需求还是会上升的。英伟达是全世界最大的卡贩子,所以它总会卖出更多的计算卡。
要蒸馏现有的超大模型,得先有性能出色的超大模型存在。到底还是需要像 H100 这样的计算卡集群来训练超大模型,这就像是一个“先有鸡还是有蛋”的问题。
可以说这两种声音各自都有其道理,然而大家最为期望知晓的依然是老黄本人所发出的声音。
这次GTC 2025,我们终于等到老黄的亲自回应。
还是那个GPU霸主
按照惯例,我们首先来回顾一下这场“科技盛宴”。这场“科技盛宴”的门票价格高达 1 万美元。
英伟达主要发布了以下内容:四款芯片架构、两款 AI 电脑、一款 AI 训练底层软件,并且展示了具身机器人相关的进展。其他内容不再赘述。
在全新的超级芯片产品方面,GB300 NVL72 芯片是以 Blackwell Ultra 架构为基础的。它是上代最强芯片 GB200 的继任者。其推理能力是 GB200 NVL72 的 1.5 倍。提升幅度并不显著。甚至在大会上,GB300 的直接对比对象还是 2 年前的 H100。

从市场反应方面来看,大部分人对 GB300 并不认可。它不像上一代 GB200 那样给人带来“横空出世”的惊喜感。若要说最大的升级点,或许是 HBMe 内存提升到了 288GB,这就有点像是“苹果今年发布的新机是 2TB 版本的 iPhone 16 Pro Max”那种感觉。
英伟达未来的芯片架构规划是重头戏。下代超级芯片是 Rubin NVL144,它比 GB300 NVL72 要强 3.3 倍。下下代的 Rubin Ultra NVL576 性能是 GB300 NVL72 的 14 倍。从画饼给出的性能来看,未来大概率仍会由英伟达掌握 GPU 算力王座。


从发布的产品方面来看,英伟达在 GPU 领域依然是霸主。其领导地位已经开始向 AI 领域拓展。它们不但将产品技术路线图更新为一年一更,未来三年的产品堪称非常有潜力,围绕 AI 相关的软件建设也在快速地推进,NVIDIA Dyamo 很有很大可能会成为未来数据中心的必备配置。
对于DeepSeek的冲击,英伟达似乎也有了解决的办法。
进入“token时代”
他回应的是关于 DeepSeek 诞生以来对公司造成的冲击。
他首先对 DeepSeek 进行了全面的夸赞,说 DeepSeek R1 模型是“极为出色的创新”,同时也是“属于世界级的开源推理模型”。并且他表现得很淡定,还表示不明白大家为何会将 DeepSeek 视为英伟达的末日。
关于因 DeepSeek 而引发的有关 ScalingLaw 撞墙的讨论,老黄在会议上给出了他自己的看法。
他首先在大会上进行了一次操作,即对 Scaling Law 进行了迭代更新。

现在他把 Scaling Law 具体分成了 PRE-TRAININGSCALING、POST-TRAINING SCALING、TEST-TIMESCALING 这三个部分。老黄的意思是,当 AI 步入不同阶段时,对 Scaling 的需求会持续上升。
这里要提及,老黄觉得 AI 的发展包含四个阶段,分别是感知人工智能(Perception AI)、生成式人工智能(Generative AI)、代理人工智能(Agentic AI)以及未来的物理 AI(Physical AI)。而当下我们正处在代理人工智能阶段。

现阶段因为推理模型和 AI 代理的爆发,实际上是更需要进行 Scaling,也更需要算力。
其背后的关键是token。
以推理模型为例,在模型进行推理的过程中,token 的消耗急剧上升。按照老黄的说法,我们不但要使 token 的吞吐量提升十倍,而且要具备比过去多十倍的算力来提高 token 的输出速度,最终,所需的算力是之前的 100 倍。
从技术层面来看,这是有一定道理的。与传统的生成式模型,像 GPT 相比,我们察觉到它没有将推理步骤一一列举出来。先是输入问题,接着就提供答案,中间没有其他环节,答案所展现出来的就是最终消耗的 token 数。
拥有思维链的推理式模型,像大家熟知的 DeepSeek R1 ,会存在一连串的推理过程。在某些时候,这一连串推理过程的字数有可能比答案的字数还要多。
R1 模型能够进行推理,原因是它会把输出的 token 送回上级去重新思考和推理。就像比喻大师老黄所说的那样,“每个 token 都会自我怀疑”。在这种不断的怀疑与论证过程中,形成了推理的过程。不过,这也会使算力和 token 的消耗增多,推理模型比传统生成式模型多消耗的 token 并非 2 倍,而是 20 倍。
所以,当我们使用推理模型时,需要将一连串的思考和推理过程在前台展示出来。这不仅是因为用户能够通过大模型的推理过程来介入并修正答案,还因为这些过程并非是无偿提供的,不是免费的,而是在消耗一个个 token,它们代表着真金白银,是花了钱的地方,所以肯定得让用户看到。
市面上的推理模型在不断增多,更多的传统模型也开始陆续参与到推理过程中,像谷歌的 Gemini 就是其中之一,这样一来,最终 token 的消耗将会以指数级的速度上升。
老黄坚信 Scaling Law 没有失效,这便是他的底气所在。在会议上,老黄将传统模型 Llama 3.3 70B 与 DeepSeek R1 671B 进行了对比,并且统一让它们回答一个复杂问题。最终,前者消耗了 400 多个 token 但结果无法使用,而后者的结果十分完美,不过却足足消耗了 8559 个 token。

或许蒸馏大模型的点子能节约一些算力,而这些节约下来的算力又会在推理过程中被消耗掉,说不定这就是 AI 算力中的能量守恒呢。
DeepSeek让英伟达GPU卖得更好
一个事实是,在这个高 token 消耗的时代,英伟达的 GPU 卖得更猛了,这与黄仁勋的激情论证无关。
彭博社有报道称,OpenAI 预期在“星际之门”的首期计划里,要构建一个能够容纳 40 万个英伟达 AI 芯片的数据中心综合体。如果全部装满,那它将成为世界上最大的 AI 算力集群之一。
马斯克对算力极为推崇,他旗下的 xAI 已与戴尔达成 50 亿美元的协议,此协议用于在孟菲斯建设超级计算机的 AI 服务器;Meta 也宣布了计划,即要拥有相当于 600,000 块英伟达 H100 芯片的算力。
国内的阿里、小米、腾讯等公司也把部署海量算力当作主要目标。这些公司背后的显卡供应商,毫无疑问大多来自英伟达。推理模型铺开后,大公司们对计算卡和算力的热情依然未减,看来至少大公司们仍认为未来是算力的时代。
在个人本地部署这个领域当中,DeepSeek R1 并没有切实地将个人用户的算力负担减轻下来。
2 月中旬,全网出现了本地部署 DeepSeekR1 蒸馏模型的热潮。然而,以个人的经验来讲,若要获得较好的模型性能,对电脑配置,也就是算力的要求是比较高的。
以 RTX 4080 16GB 显卡作为例子。它拥有 9728 个 CUDA 核心。16GB 的 GDDR6X 显存,其显存带宽为 736GB/s。在显卡当中,它已经属于高端的范畴。
用它在本地部署 14B 的 DeepSeekR1 蒸馏模型时,大部分推理速度为 20 - 30 tokens/s。要分析深度问题,往往需要等待超过 10 分钟。
如果用它来部署 32B 的蒸馏模型,那么推理速度会下降。下降后的速度为 5 - 15 tokens/s。要生成同样的回答,就需要等待超过 30 分钟。
这样的效率显然是不行的。如果想要提高推理速度,有两个办法:
部署更小参数的蒸馏模型,然而推理的精度会明显下降,并且答案的可靠性也会明显下降。
选择配置更高的硬件,例如 RTX 5080 或 5090。用 5090 来部署 32B 的蒸馏模型,这样推理速度能够达到 50 - 60 tokens/s。效率有了明显的提升,然而却让老黄售卖显卡的计划得以实现。
也许对于大多数人来说,本地部署大模型的算力条件,还不如直接打开腾讯元宝来得高效。
因此,“蒸馏模型节省训练算力”是从 DeepSeek R1 引申出来的,而这已经被“推理模型消耗算力”所抵消。这给英伟达带来了全新的机遇,也就是说 DeepSeek 的出现,一方面为英伟达关上了一扇门,另一方面又为英伟达打开了一扇窗。
最终,我们得承认从长远角度看,算力的需求会持续增加,这对英伟达是利好的。尽管今年的Blackwell Ultra存在挤牙膏的情况,但在后面几年,芯片架构都会有显著的算力提升。当各大厂的算力变得紧张时,老黄的那些高性能产品就又有能够充分施展才能的机会了。
贩卖token焦虑?
在 GTC 2025 中,凡是涉及 AI、GPU、算力的部分,老黄都与 token 相关联。甚至有一些好事的媒体特意对他在会上提及“token”的次数进行了统计,这还挺幽默的。
在新的 Scaling Law 时代,token 似乎成为了英伟达的救命之物。从逻辑方面来看,老黄的观点是有其合理性的。然而,如此频繁地重复一种逻辑,就如同我们在文章里连续书写 100 次“token”一样,难免会让人觉得,英伟达显得有些过于激动和疯狂。
农历新年之后,英伟达的市值减少了约 30%。此次发布会上的黄仁勋,不再具备技术大拿的风范,不再像是“全世界最聪明的科学家”以及“全球最牛公司的 CEO”,反倒像是一个啰啰嗦嗦的金牌销售,凭借贩卖 token 焦虑这种方式,使大家坚信英伟达依然掌控着未来。
投资者的信心并非源于推销和布道,而是源于产品。今年下半年面世的 GB300 实际上没有太多亮点,所描绘的前景又较为遥远。这种情况反映在股价上,即发布会结束后,英伟达的股价依然下跌了 3.4%。
更令我哭笑不得的其实是价值 3000 美元的 DGX Spark。官网披露的信息显示,这款产品的 128GB 内存,其带宽仅为 273GB/s。

老黄将其定义为“可用于本地部署”的 AI 电脑,然而其性能并不令人满意。首先,即便不提及满血版 671B 的 DeepSeek R1,运行大部分 32B 的模型,也只能达到 2 - 5 tokens/s 的输出效率。其次,用它来运行传统模型或许还可以,但对于推理模型来说,估计是相当困难的。
它存在的意义或许停留在“促使大家去购买更强的 DGX Station”这方面。然而,倘若你一直都在制造 token 焦虑,那最好能拿出更多能够解决 token 焦虑的产品。
英伟达现在不缺技术和产品,在 GPU 领域处于领先地位,第二名远远落后;真正缺少的是对消费者的诚意。
参考资料:
刚刚,黄仁勋拿出了三代核弹级别的 AI 芯片!这种个人超算每秒能够运算 1000 万亿次,而 DeepSeek 成为了最大的赢家。
第一财经 《凌晨,黄仁勋重大宣布!》
相关文章
猜你喜欢
-
三星发布可折叠智能手机,内置 AI 开启智能新时代
IT之家 7 月 18 日消息,三星电子上周在巴黎举办的 Galaxy Unpacked 活动上发布了最新的可折叠智能手机 Galaxy Z Fold 6 和 Fl...

