当ARC-AGI-2于2026年初发布作为o3几乎解决的基准测试的更难后续版本时,人工智能社区预期新任务至少能让当前系统停滞一年。Gemini Deep Think在ARC-AGI-2上达到45.1%的准确率——在基准测试发布后数月内实现——显著改变了这些预期,尽管仔细分析该分数的含义比标题数字更能说明问题。
ARC-AGI测试什么
由François Chollet开发的抽象与推理语料库(ARC)明确设计用于抵抗大型语言模型在传统基准测试上表现良好的记忆策略。ARC任务呈现视觉网格,包含少量输入-输出示例,要求模型推断转换规则并将其应用于新输入。这些模式足够新颖,无法从任何训练语料库中提取;它们需要Chollet所描述的基于少量证据的真实上下文推理。
ARC-AGI-1几乎被OpenAI的o3模型达到87.5%的饱和度,该模型使用了大量的测试时计算——本质上是通过选择机制进行多次尝试以获得最佳答案。这一分数令人印象深刻,但也表明,只要有足够的计算预算,即使是旨在抵抗当前AI的任务也可以在推理层面被强行破解。ARC-AGI-2的设计考虑到了这一点,纳入了需要更基本概念形成且难以通过扩展搜索解决的任务。
45.1%的背景
截至2026年4月初,Gemini Deep Think的45.1%是ARC-AGI-2上公布的最高分数。作为参考:随机基线约为0%;ARC-AGI-1上原始的人类表现是85%;而ARC-AGI团队对ARC-AGI-2上人类表现的评估超过90%。因此,45.1%代表了当前AI在随机表现和人类表现之间的最佳水平——显著优于零,但远低于人类水平。
该分数与ARC-AGI-1的分数不能直接比较,因为任务难度分布不同。ARC-AGI-2的任务平均而言更难,这意味着在ARC-AGI-2上达到45%比在ARC-AGI-1上达到45%代表更强的能力。但与人类表现(90%+)的比较比绝对数字更清晰地揭示了仍然存在的差距。
Gemini Deep Think的结果也需要大量计算资源。与o3在ARC-AGI-1上的分数一样,45.1%反映了扩展的测试时推理——模型在产生最终答案前被允许生成更多的思维链token。这意味着,在这个基准测试上与人类的差距正在部分通过在每个问题上投入更多计算来缩小,而不仅仅是通过模型基础推理能力的改进。
剩余54.9%需要什么
Chollet 对当前 AI 系统 ARC-AGI-2 失败的分析指出了一个一致的模式:需要新颖概念形成的任务——从零开始构建新的心理模型,而非应用现有模式——仍然明显比需要在新背景下应用可识别变换的任务更难。这一区别具有哲学意义:它与 Chollet 长期以来的论点一致,即当前的 LLM 是复杂的模式匹配器,而非真正的推理者。
Gemini Deep Think 在涉及多个相互依赖变换的任务上表现挣扎,这些变换之间的关系必须从极少数示例中推断出来;在示例中的明显模式是故意误导而真实规则是二阶抽象的情况;以及需要空间推理的情况,这种推理超越了简单的几何变换,从二维投影到真正的三维建模。
这些失败案例对更广泛的 AI 能力评估具有启示意义。它们表明,测试时计算扩展——让模型进行更长时间的思考——在可分解为模式匹配操作序列的任务上继续有效,但在需要概念形成的任务上遇到了天花板,这类任务对人类来说计算成本也很高。
Gemini 的架构贡献
Google 公开的关于 Gemini Deep Think 特别擅长 ARC-AGI-2 的细节有限,但该模型的训练似乎比基础 Gemini 2.0 模型更加强调视觉推理和多步骤规划。”Deep Think” 这一名称对应一种推理配置,为每个问题分配更多的计算资源,在精神上与 o3 的高计算模式相似。
与 o3 的 ARC-AGI-1 方法的一个有意义区别是,Gemini Deep Think 似乎使用了更复杂的自我纠正机制——检测当前方法是否有效并重构其推理策略,而非简单地多次尝试相同方法并进行变化。这是 Chollet 框架表明对剩余 54.9% 任务所必需的元认知能力。
这对 AGI 辩论的意义
ARC-AGI-2 故意不是对”AGI”的完整衡量——它在特定条件下测试一种特定的抽象推理形式。Chollet 明确表示,通过 ARC-AGI 的系统将展示通用智能的一个重要组成部分,而非智能本身。因此,45.1% 的成功率不会以简单的方式推动 AGI 时间线。
这确实表明,被归类为”AI难以解决”的问题类别,其缩减速度超过了大多数2023年的预测。ARC-AGI-2中的任务之所以被选中,是因为它们对GPT-4时代的模型来说具有挑战性。在同一基准发布年内就获得45%分数的系统,相对于那些预测,将达到这一能力水平的时间线压缩了大约两到三年。
对开发者和运营者更有用的框架是:在ARC-AGI-2等基准测试中展示的能力——从少量示例中推断新规则、多步骤抽象推理、推理策略的自我纠正——将在未来十二到十八个月内越来越多地出现在通用AI系统中。规划能够执行这些操作的AI系统,比讨论它们的AGI影响更为相关。
