Meta推出最强大开源AI模型Llama 4系列,部分性能优于同类型产品

出品|虎嗅科技组
作者|孙晓晨
编辑|苗正卿
头图|视觉中国
4 月 5 日是当地时间。Meta 推出了它到目前为止最为强大的开源 AI 模型,即 Llama 4 系列。Meta 首批推出的 Llama 4 系列模型包含 Llama 4 Scout 和 Llama 4 Maverick。另外,还有更为强大的 Llama 4 Behemoth 正在训练之中。

Meta 介绍说,Llama 4 Scout 具有 170 亿活跃参数,有 16 个专家模型,总参数达 1090 亿。在各种被广泛接受的基准测试里,它的性能比 Gemma 3 好,比 Gemini 2.0 Flash-Lite 好,也比 Mistral 3.1 好。Llama 4 Scout 支持的上下文长度为 1000 万 token。这会为 AI 模型的功能开启新的可能。例如可以进行多文档摘要。还能解析大规模用户活动来进行个性化任务。并且可以在庞大的代码库中进行推理。
Llama 4 Maverick 有 170 亿活跃参数,它的专家模型数量增加到了 128 个,总参数量是 4000 亿。此模型据说具备顶尖的图像定位能力,能够把用户指令和相关视觉概念精准地对应起来,还能将模型响应固定在图像中的特定区域。Meta 称,Llama 4 Maverick 在多项主流基准测试里,在各个方面都超越了 GPT-4o 和 Gemini 2.0 Flash。它的活跃参数只是后者的一半,但在推理和代码能力方面达到了与 DeepSeek V3 相同的性能。它的聊天版本在 LMArena 测试中获得了 1417 的 ELO 评分,具有非常高的性价比。

Llama 4 Behemoth 包含 2 万亿参数。Meta 称,Llama 4 Behemoth 是他们到目前为止最为强大的模型,并且还在训练当中。目前在 STEM 领域的基准测试里,它的表现比 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 都要优秀。

Meta 在其官网的博文中分享了有关 Llama 4 系列模型的技术细节。
该系列模型属于首批运用混合专家(MoE)架构的模型。它在训练和推理过程中计算效率更为出色。并且在相同的训练FLOPs预算条件下,能够产出质量更高的结果。
Llama 4 具备原生多模态设计,并且融入了早期融合技术,能够将文本和视觉标记毫无缝隙地集成到统一的模型骨干当中。Meta 宣称:早期融合是一个极为重要的进步,因为它让我们可以利用大量未标记的文本、图像以及视频数据来对模型进行联合预训练。同时,Llama 4 的视觉编码器也有了改进,从而能够更好地适应大语言模型。
在模型训练期间,训练团队运用了一种名为“MetaP”的新式训练技术,这种技术可以稳定地设定重要的模型超参数,像各层的学习率以及初始化规模等。Llama N借助预训练可以支持 200 种语言,其中有 100 多种语言的训练标记量超过了 10 亿个。整体来看,多语言训练标记量比 Lama 3 提升了 10 倍,这为开源社区的模型微调工作打下了坚实的基础。
Meta 通过一系列其他动作来训练和完善模型。它采用 FP8 精度进行高效模型训练,还采用“中期训练”的方式继续训练模型,以提升模型的核心能力。
Meta 关注模型安全这一重点。Meta 在博文中表示,他们的目标是开发既最有帮助又最有用的模型,同时要防范和减轻最严重的风险。并且他们按照《开发者使用指南:人工智能保护》中概述的最佳实践来构建 Llama 4。这包含在模型开发的各个层面(从预训练一直到后训练)将缓解措施进行整合,还有可进行调节的系统级缓解措施,目的是保护开发者,使他们不会受到对抗性用户的影响。
2025 年之后,DeepSeek R1、Grok 3、GPT-4.5 等众多模型陆续推出。这些模型不断刷新数据。如今,Llama 4 强势进入市场。它声称能够碾压 GPT-4.5。由此可见,这场模型之间的战斗变得越来越激烈。作为开源大模型,Llama 4 系列模型体现了 Meta 对开源策略的坚持。Meta 首席执行官扎克伯格称,他们的目标是打造世界领先的人工智能,把它开源,让其能普遍被使用,这样世界上的每个人都能从中获益。从 DeepSeek 带来的冲击以及 OpenAI 越来越明显的开源倾向来看,AI 公司似乎越来越认同开源策略了。但是面对 OpenAI 等诸多竞争对手,Meta 能否凭借开源策略构建起有效的生态壁垒呢?Llama 4 Behemoth 能否助力它在“万亿参数俱乐部”中取得领先地位呢?这些都还尚未可知。
本文来自虎嗅,原文链接:

