• 微信

DeepSeek开源周惊喜不断,公布推理成本与收入利润,年化收入近15亿元

时间:2025-03-03 07:01作者:admin分类:大千世界浏览:123评论:0

人们以为 DeepSeek 的开源周在周五已经结束,且周五已经连发到上周五。然而,他们没有想到,周六又出现了一个额外的情况,即公布了推理成本和收入利润,将 AI 开放提升到了一个新的境界。

DeepSeek开源周惊喜不断,公布推理成本与收入利润,年化收入近15亿元

DS 计算表明,如果每一次推理服务都能获得收益,那么公司每天的进账约为 410 万元人民币,年化收入将近 15 亿元。V3/R1 的理论成本利润率(收入除以成本)达到了 545%!然而,OpenAI 人员很快指出这可能会产生误导,如果按照正常的利润率来计算,相当于推理部分的毛利率达到了 84%。

嗯,这也不低。

头一天,OpenAI 发布了 GPT - 4.5,它是最大最贵且情商最高的。它的价格是 4o 和 Claude 的 15 到 20 倍,是 DS 的 200 到 1000 倍。孙正义正准备向 OpenAI 投资数百亿美元,他会后悔吗?

DS 公布了其解决的三大问题,一是实现了大规模跨节点专家并行,二是做到了计算 - 通信重叠,三是达成了最佳负载平衡,通过这些解决办法实现了推理更高的吞吐量以及更低的延迟。并且跑在 H800 上时,其 token 输出速度达到了 20 ~ 22 token 每秒。

理论收入是依据 R1 标准 API 定价来计算的,它涵盖了 Web、APP 和 API 端的所有 token 计算量,不过这并非实际收入。

DS估值至少百亿美元

这一结果再次在 AI 圈引发了轰动。美国的 AI 企业在过去的一周里肯定都在模仿 DS 的做法。之后,中国的开源 AI 将会以更迅猛的速度进行创新。美国和中国,要展开比学赶超的竞争了。

DS 又一次引发了对算力需求的质疑和重新评估。有人进行了一番静态的计算,如果要达到这样的效率,全中国仅仅需要 25 万张 GPU 就能够满足 AI 推理的需求。当然,这需要进行动态的估算,成本降低后,会促使技术的部署和商品化进程加快,人们使用得更多,也会提升对 GPU 的需求。然而,之前的那些估算,其中的许多前提假设都将被修正。

这可能让许多风险投资大佬感到抓狂。之前他们给那些 AI 企业进行投资,是基于前沿大模型有护城河这一假设的。然而,DS 似乎在破坏护城河,因为它在一周内做到了“将大模型的秘方送到了每个人的家门口”,这有可能会降低一些 AI 企业的估值。

DS 还有估值。MenloVenture 的投资人 Deedy Das 认为,在硅谷,DS 是一家价值超过百亿美元的独角兽公司。

以技术和工程提升毛利率

DS 采用了一种方法,这种方法被称为跨节点专家并行,简称 EP。通过这种方法,能够提高 GPU 在推理时的吞吐量,同时也能降低延迟。

EP 使批量大小得到了显著的扩大,同时提升了 GPU 矩阵的计算效率以及吞吐量。EP 还能够把专家分布在 GPU 上,让每个 GPU 仅仅处理一小部分专家,这样就减少了内存的访问需求,进而降低了延迟。

EP 增加了系统的复杂性,它引入了跨节点通信。DS 为了优化吞吐量,设计出了一种计算工作流程,这种工作流程能够将通信与计算重叠。

EP 涉及多个节点,从本质上来说需要数据并行(DP)。DS 能够让不同的 DP 实例之间实现负载平衡。

(DS在线推理系统图)

在开源周的 One More Thing 中可以获得具体的技术细节。

白天处于波峰时段时,所有节点会对推理请求进行处理。到了晚上,由于推理需求降低,资源便被重新分配到研究和训练任务上。DS 依据每天在线的“波峰”以及“波谷”期所拥有的 H800 节点数量,计算出了它的每日总成本。

上周五(UTC+8 2025 年 2 月 27 日 12:00 PM 至 2025 年 2 月 28 日 12:00 PM)这 24 小时内,DS 所选择的时间段里,V3 和 R1 推理服务的合并峰值节点占用总数达到 278 ,平均占用率为 226.75 个节点,且每个节点包含 8 块 H800 GPU 。一块 H800 GPU 的租赁成本是每小时 2 美元。每天有 24 小时。那么每天的总成本就是 2 美元乘以 24 小时,结果为 48 美元。但实际上每天的总成本是 87072 美元。

DS这样综合统计V3和R1:

总输入的 token 数为 608B,其中有 342B 个 token,这些 token 占总 token 数的 56.3%,并且命中了磁盘 KV 缓存。

总输出的 token 数是 168B,它的平均输出速度在 20 到 22 个 token/s 之间,并且平均每个输出 token 的 kvcache(健值缓存)长度为 4989 个 token。

每个 H800 节点在预填充阶段能提供大概 73.7k 个 token/秒的输入,这里面包含缓存命中的情况;在解码期间能提供大概 14.8k 个 token/秒的输出。平均到每个用户请求的输出速度,能够达到 20 到 22 个 token 每秒。

以上数据涵盖了源自网页、APP、API 的所有用户请求。倘若所有代币都依据 DeepSeek-R1 来定价计费(*),那么每日的总收益是 562,027 美元,成本利润率为 545%。

R1 定价为:缓存命中时是 0.14 美元/M 输入 token;缓存未命中时是 0.55 美元/M 输入 token;输出 token 为 2.19 美元/M。

然而,DS 的实际收入比所说的要低很多。原因在于 DeepSeek-V3 的定价比 R1 明显要低。网页和 APP 的访问在服务中占比较大,并且这些访问仍然是免费的。在夜间的应用“波谷”时段,价格是有折扣的。

语言模型没有护城河

AI 公司披露成本以及潜在收入和盈利数据,这种情况极为罕见,就连科技巨头都表现得吞吞吐吐。DS 公布的虽是理论上的推测数量,但却为研究人工智能的成本以及潜在盈利能力,提供了重要的参考。

从 DS 具有的不同寻常的透明度里,能够看出行业的动态情况。AI 模型在理论上是可以产生较为可观的利润率的,然而要获取这样的价值却是一件困难的事情。在市场竞争的过程中,以及分级定价结构的影响下,还有对提供免费服务的需求存在,实际的利润往往会大幅度地减少。

OpenAI 到 Anthropic 等公司都在对各种盈利模式进行尝试,有订阅制,有按使用收费,还有收取许可费。它们都在努力打造越来越复杂的人工智能产品。然而,投资者对这些商业模式以及它们的投资回报率产生了质疑,这些商业模式能否在短期内实现盈利,一直让人们感到担忧。

OpenAI 最近的定价策略值得关注。相比之下,最新的 GPT-4.5 价格远高于前代产品和 DS 等竞争对手。而且,尽管性能改进不大。

DS 的数据显示,语言模型正朝着商品服务的方向发展。高价并不能体现出实际的性能优势。这给 OpenAI 等硅谷的 AI 公司增添了额外的压力,这些公司多数都亏损了数十亿美元,并且面临着巨大的运营成本。

OpenAI 感受到了巨大的压力。GTM 经理 Adam Goldberg 最近强调,AI 的成功需要控制整个价值链,包括从基础设施和数据到模型和应用程序。随着语言模型商品化,竞争优势或许不再在于模型本身,而是在于公司在整个技术堆栈中进行集成和优化的能力。

参考:

大规模跨节点专家并行(EP)。 跨节点进行大规模的专家并行。 专家并行在大规模跨节点的环境中。 大规模的专家并行发生在跨节点的情况下。 跨节点的大规模环境下进行专家并行。 专家并行于大规模跨节点的场景之中。 大规模跨节点的情况下开展专家并行。 跨节点且大规模的专家并行活动。 大规模跨节点环境中进行专家并行这一行为。 专家并行在跨节点的大规模条件下。 跨节点的大规模环境中存在专家并行。 大规模跨节点的条件下进行专家并行。 专家并行于跨节点的大规模范畴内。 跨节点的大规模环境促使专家并行。 大规模跨节点的背景下开展专家并行。 专家并行在跨节点的大规模氛围中。 跨节点的大规模环境利于专家并行。 大规模跨节点的情形下进行专家并行。 专家并行在跨节点的大规模态势下。 跨节点的大规模环境推动专家并行。 大规模跨节点的状况下进行专家并行。 专家并行在跨节点的大规模格局中。 跨节点的大规模环境带动专家并行。 大规模跨节点的条件促使专家并行。 专家并行在跨节点的大规模领域内。 跨节点的大规模环境引领专家并行。 大规模跨节点的情形带动专家并行。 专家并行在跨节点的大规模趋势下。 跨节点的大规模环境影响专家并行。

文章评论