DeepSeek开源大模型震撼美国AI公司,Meta员工匿名社区透露恐慌情绪
DeepSeek 开源大模型的阳谋,切切实实震撼着美国 AI 公司。

最先陷入恐慌的,似乎是同样推崇开源的 Meta。
最近,有 Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子。帖子提到,国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌,因为在前者的低成本高歌猛进下,后者无法解释自己超高预算的合理性。
原文如下:
这一切始于 DeepSeek-V3,它在基准测试中就已经让 Llama 4 落后。更糟糕的是那个“拥有 550 万训练预算的不知名中国公司”。
工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。这一点都不夸张。
管理层担心如何证明庞大的生成式 AI 组织的成本是合理的。当生成式 AI 组织中的每个“领导”的薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的“领导”时,他们要如何面对高层?
DeepSeek-R1 让情况变得更加可怕。虽然我不能透露机密信息,但这些很快就会公开。
这本应该是一个以工程为重点的小型组织,但是因为很多人想要参与进来分一杯羹,人为地膨胀了组织的招聘规模,结果每个人都成了输家。
原贴链接:
帖子中提到的和分别发布于 2024 年 12 月 26 日和 2025 年 1 月 20 日。
其中,DeepSeek-V3 在发布时提到,该模型在多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
不过,更引人关注的是,这个参数量高达 671B 的大型语言模型训练成本仅 558 万美元。具体来说,它的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有 278.8 H800 GPU Hours。相较之下,Meta 的 Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。
而最近发布的 DeepSeek-R1 的性能更猛 —— 在数学、代码、自然语言推理等任务上,它的性能比肩 OpenAI o1 正式版。而且模型在发布的同时,权重同步开源。很多人惊呼,原来 DeepSeek 才是真正的 OpenAI。UC Berkeley 教授 Alex Dimakis 则认为, DeepSeek 现在已经处于领先位置,美国公司可能需要迎头赶上了。
看到这里,我们不难理解为何 Meta 的团队会陷入恐慌。如果今年推出的 Llama 4 没有点硬本事,他们“开源之光”的地位岌岌可危。
有人指出,其实该慌的不止 Meta,OpenAI、谷歌、Anthropic 又何尝没有受到挑战。“这是一件好事,我们可以实时看到公开竞争对创新的影响。”
还有人担心起了英伟达的股价,表示“如果 DeeSeek 的创新是真的,那 AI 公司是否真的需要那么多显卡?”
不过,也有人质疑,DeepSeek 究竟是靠创新还是靠蒸馏 OpenAI 的模型取胜?有人回复说,这可以从他们发布的技术报告中找到答案。
目前,我们还无法确定帖子的真实性。
不知道 Meta 后续将如何回应,即将到来的 Llama 4 又会达到怎样的性能。
相关文章
- 文化和旅游部推出90条乡村主题精品线路,丰富春节假期文旅体验
- 2024年中国外贸进出口总值创新高,区域协调发展助力质升量稳
- 揭秘人性中的不可能三角形:欲望满足、自我提升与轻松舒适的矛盾
- 河南矿山集团2024年年终奖发放1亿元,销售部员工最高可获500万元
- 字节跳动旗下美中爱瑞医院与百济生物合作,共建中新肿瘤防治技术创新中心
- 罗保铭严重违纪违法被立案审查调查:长期与政治骗子交往,造成重大损失
- 大厂转行新趋势:为何越来越多高材生选择卖保险?职场尽头真的是保险吗?
- 长期喝无糖饮料的危害:不含糖≠无糖,代糖品如何影响胰岛素和血糖?
- 特朗普要求北约国家将军费开支增至GDP的5%,欧洲国家面临重压
- 1998年出生的哈尔滨工业大学教授杨朔:年轻博导的机器学习与计算机视觉研究成就

