
文丨苏扬
编辑丨徐青阳
继 Llama 4 曝出基准刷榜丑闻、旗舰模型 Behemoth 项目搁置等问题之后,扎克伯格决定彻底推倒重来。
他曾砸下 140 亿美元挖人,亲自在帕洛阿尔托和太浩湖的豪宅里宴请顶级研究员,最终将前 Scale AI 首席执行官汪韬(Alexandr Wang)延揽麾下,主持成立 Meta 超级智能实验室(Meta Superintelligence Labs),并用九个月时间将整个 AI 技术栈从头重建。
美国当地时间 4 月 8 日,这场豪赌的第一张答卷正式亮相:Muse Spark。
这是 Meta 首款闭源大模型,告别了过去全面开源的路线,将直接为 Meta AI 助手提供支持,并以 API 私测形式向少数合作伙伴开放。
根据 Meta 内部基准测试,Muse Spark 在多项指标上超越了谷歌 Gemini,与 OpenAI 和 Anthropic 的同级模型互有胜负,并在大多数测试中大幅领先于 xAI 的 Grok。消息公布后,Meta 股价当日大涨 6.5%,市值达到 1.55 万亿美元。

扎克伯格在 Threads 上写道:"我们计划持续发布更先进的模型,推动智能与能力的边界,包括新的开源模型。"这句话与他今年 1 月财报电话会议上的表态如出一辙。他早早管理了外界预期:"我预计我们的第一批模型会很好,但更重要的是,它将展示我们所处的快速发展轨迹。"
01 领跑多模态和前沿科学基准测试
成绩单是检验重建成果最直接的标尺。
Meta 提供的基准测试图呈现了一份复杂的成绩单:有亮点,也有短板,这或许才是一款"起步款"模型最真实的面貌。
在多模态理解方面,Muse Spark 表现突出。图表理解测试 CharXiv Reasoning 中得分 86.4,领先 Opus 4.6(65.3)和 Grok 4.2(60.9),也高于这一项表现较好的 GPT 5.4(82.8)和 Gemini 3.1 Pro(80.2)。
具身推理 ERQA 测试中得分 64.7,同样优于 Opus 4.6 的 51.6。健康领域是 Muse Spark 的另一个显著优势:开放式健康问答 HealthBench Hard 中得分 42.8,远超 Opus 4.6 的 14.8、Gemini 3.1 Pro 的 20.6 和 Grok 4.2 的 20.3,是几家竞争对手中的最高分。

深思模式(Contemplating)的表现同样值得关注。在"人类终极考试"(Humanity's Last Exam)无工具版本中,Muse Spark 深思模式得分 50.2,超过 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9;启用工具后得分 58.4,超越 Gemini 3.1 Deep Think 的 53.4,与 GPT 5.4 Pro 的 58.7 基本持平。
在"前沿科学研究"(FrontierScience Research)测试中,Muse Spark 深思模式得分 38.3,不仅大幅领先 Gemini 3.1 Deep Think(23.3)和 GPT 5.4 Pro(36.7),更是几家中的最高分。这是衡量模型逼近真实科研边界的核心指标之一。
然而成绩单并非全面飘红。在抽象推理 ARC AGI 2 测试中,Muse Spark 得分 42.5,明显落后于 Opus 4.6(63.3)、Gemini 3.1 Pro(76.5)和 GPT 5.4(76.1);智能体终端编程 Terminal-Bench 2.0 中得分 59.0,低于 Opus 4.6 的 65.4、Gemini 3.1 Pro 的 68.5 和 GPT 5.4 的 75.1;竞技编程 LiveCodeBench Pro 中得分 80.0,也落后于 Gemini 3.1 Pro 的 82.9 和 GPT 5.4 的 87.5。办公任务综合评估 GDPval-AA Elo 中,Muse Spark 得分 1444,低于 Opus 4.6 的 1606 和 GPT 5.4 的 1672。
MMMU-Pro 多模态理解测试中,Muse Spark 得分 80.4,介于 Opus 4.6(77.4)和 Gemini 3.1 Pro(83.9)之间,与 GPT 5.4(81.2)相近。博士级推理 GPQA Diamond 中得分 89.5,低于 Opus 4.6(92.7)、Gemini 3.1 Pro(94.3)和 GPT 5.4(92.8),差距较为明显。
这份成绩单的背景是" Muse 系列首款模型"。Meta 在发布文件中反复强调,更大规模的后续模型已在研发之中,当前结果的意义更多在于证明技术栈的规模化可行性,而非宣示性能天花板。
Meta 强在多模态感知与前沿科研推理,弱在抽象推理与智能体编程。这份有得有失的成绩单,或许比一份完美的跑分更能说明问题:Meta 的重建尚未完成,但方向已经清晰。
02 多智能体并行
Muse Spark 最引人注目的架构亮点,是多智能体并行编排机制与多模态感知能力的原生整合,二者共同构成了这款模型区别于竞争对手的核心底色。
当用户提出一个复杂问题,Meta AI 不再让单个模型"想清楚再回答",而是同时派出多个子智能体分头行动。以规划一次佛罗里达家庭旅行为例:一个智能体负责起草总行程,另一个对比奥兰多和基韦斯特各自的利弊,第三个同步搜寻亲子友好型活动,三条线并行推进,最终汇总成一份更快、更完整的答案。
与此对应,Muse Spark 推出了"深思模式"(Contemplating mode),直接与 Gemini Deep Think 和 GPT Pro 的旗舰推理模式正面竞争。多智能体并行并不意味着更长的等待,它用横向扩展取代了纵向堆叠,在可比时延下实现了更优的综合表现。
大多数 AI 助手的局限在于只能理解用户输入的文字,Muse Spark 试图打破这一边界。拍下机场便利店货架,它能识别并筛选出蛋白质含量最高的零食,无需费力辨读食品标签;扫描一款商品,即可即时与同类产品横向比较。这种能力的本质转变,是 AI 从"等你解释世界"到"直接与你共同观察世界"。当这一能力搭载于 Meta AI 眼镜,感知的边界将进一步延伸,摄像头即是 AI 的眼睛。

健康是多模态能力最具现实价值的落地场景。Meta 与逾 1000 名医师合作策划训练数据,使 Muse Spark 能够就常见健康问题提供更准确、更全面的回应,涵盖图像与图表的解读。用户可获得交互式健康信息展示,直观呈现不同食物的营养成分或运动动作所激活的肌肉群,将枯燥的健康数据变成可视化的个人参考。
视觉编程能力同样值得一提。用户只需一条自然语言提示,即可直接生成可交互的网页应用或小游戏,数独、复古街机、飞行模拟器,乃至一个策划盛大惊喜派对的管理看板,均可一键分享给他人。这不再是"帮你写代码",而是"帮你造产品"。

与 OpenAI 和 Anthropic 不同,Meta 手里握着一张任何外部 AI 公司都无法复制的牌:十亿级别的社交图谱与内容生态。Muse Spark 充分利用了这一独特资产。

购物模式整合了 Instagram、Facebook 和 Threads 上已有的创作者内容与品牌叙事,为用户提供穿搭建议、家居方案或礼物推荐,灵感来源不是冷冰冰的算法匹配,而是用户已在关注的真实社群。

当用户搜索某个地点或想了解某个热门话题,Meta AI 会在对话中同步呈现丰富而相关的背景信息。点击一个地点,即可看到当地居民的公开帖子;询问某件事的全貌,AI 会从社区内容中汇聚真实讨论动态,来自用户自己圈子的信息,在最需要的时刻触手可及。
这是一种与通用搜索截然不同的信息整合逻辑:数据源不是泛化的互联网,而是用户自己的社交世界。Meta 还透露,随着功能的持续扩展,Reels 短视频、图片与动态帖子将被直接织入对话答案,并附带对原创内容创作者的归因致谢,这既是对创作者生态的承诺,也是 Meta 区别于所有竞争对手的核心护城河。
扎克伯格对此的定义,是"个人超级智能":"一个不只回答问题,而是真正理解你世界的 AI,因为它本就建立在你的世界之上。"
03 三条规模化轴线:下一代已在路上
发布会的另一层信号,比产品本身更值得关注。Meta 首次系统性地公开了其规模化路线图的底层逻辑。

预训练:同等能力,十分之一的算力。过去九个月,Meta 从模型架构、优化方法、数据策划三个维度全面重构了预训练技术栈。
通过对一系列小模型拟合规模化定律,Meta 得出结论:与 Llama 4 Maverick 相比,Muse Spark 达到相同能力水准所需的训练计算量减少了一个数量级以上。这一效率优势,也使其在主流基础模型横向比较中脱颖而出。

强化学习:平滑增益,可预测泛化。大规模强化学习以训练不稳定著称,但 Meta 的新技术栈交出了平滑、可预测的增益曲线。
训练数据上 pass@1 与 pass@16 呈对数线性增长,表明强化学习在提升模型可靠性的同时,并未损害推理多样性;留存评估集上的准确率同步稳定提升,证明训练收益能够真实泛化到未见任务上——而不是 " 只会考试 "。

推理时计算:"思维压缩"后再提速。强化学习训练使模型在回答前学会了"思考",但向数十亿用户提供这一能力,对 token 效率提出了极高要求。
Meta 采用了两个关键手段:其一是思考时长惩罚项,在 AIME 等评测中触发了一个有趣的相变——模型先通过延长思考时间提升表现,随后长度惩罚触发"思维压缩",以大幅减少的 token 数量完成同等难度的推理,之后再次延伸解题链路实现更强表现;其二是多智能体并行编排,在不显著增加响应时延的前提下,用横向扩展取代纵向堆叠。
从这三条轴线来看,Meta 在这份技术报告中着墨最多的,恰恰不是当前成绩,而是规模化的可预测性。这正是资本市场和生态合作伙伴最想看到的东西。
04 起点
Muse Spark 在设计上"以小巧、快速为先",这不是能力不足的委婉说法,而是一种刻意选择的方法论。Meta 将 Muse 系列定位为严格递进式的扩展路线:每一代在前代基础上验证、突破,再向更大规模迈进。更大参数量的后续模型已在研发之中。
回到九个月前那个艰难的起点,Meta 用 Muse Spark 证明了两件事:技术栈在有效扩展,组织在重建之后重新凝聚了方向。
但 Meta 想要追赶 OpenAI、Anthropic 和谷歌 DeepMind 等主要竞争对手,仅凭一款"起步款"模型远远不够。该公司后续发布的其他系列模型,将决定扎克伯格的这场豪赌,究竟是翻盘,还是又一次代价高昂的重来。
特约编译无忌对本文亦有贡献