当ARC-AGI-2于2026年初发布作为o3几乎解决的基准测试的更难后续版本时,AI社区预计新任务至少能抵抗当前系统一年时间。Gemini Deep Think在ARC-AGI-2上达到45.1%的准确率——在基准测试发布后几个月内实现——显著改变了这些预期,尽管仔细分析该分数的含义比标题数字更能说明问题。

ARC-AGI测试的内容

由François Chollet开发的抽象与推理语料库(ARC)明确设计为抵抗大型语言模型在传统基准测试上表现出色的记忆策略。ARC任务呈现视觉网格,包含少量输入-输出示例,要求模型推断转换规则并将其应用于新输入。这些模式足够新颖,无法从任何训练语料库中提取;它们需要Chollet所描述的基于少量证据的真实上下文推理。

ARC-AGI-1几乎被OpenAI的o3模型达到87.5%的饱和度,该模型使用了大量的测试时计算——本质上是通过选择机制对最佳答案进行多次尝试。这个分数令人印象深刻,但也表明只要有足够的计算预算,即使是设计用来抵抗当前AI的任务也可以在推理层面被暴力破解。ARC-AGI-2正是基于这一点设计的,纳入了需要更基本概念形成且难以通过扩展搜索解决的任务。

45.1%的背景

截至2026年4月初,Gemini Deep Think的45.1%是ARC-AGI-2上公布的最高分数。作为背景:随机基线约为0%;ARC-AGI-1上原始的人类表现是85%;而ARC-AGI团队对ARC-AGI-2上人类表现的评估超过90%。因此,45.1%代表了当前AI在随机表现和人类表现之间的最佳水平——显著优于零,但远低于人类水平。

该分数不能直接与ARC-AGI-1的分数比较,因为任务难度分布不同。ARC-AGI-2的任务平均而言更难,这意味着ARC-AGI-2上的45%比ARC-AGI-1上的45%代表更强的能力。但与人类表现(90%+)的比较比绝对数字更清晰地揭示了仍然存在的差距。

Gemini Deep Think的结果也计算密集。与o3的ARC-AGI-1分数一样,45.1%反映了扩展的测试时推理——模型在产生最终答案前被允许生成更多的思维链token。这意味着在这个基准测试上与人类的差距正在部分通过在每个问题上投入更多计算来缩小,而不仅仅是通过模型基础推理能力的改进。

剩余54.9%需要什么

Chollet 对当前 AI 系统 ARC-AGI-2 失败的分析指出了一个一致的模式:需要新颖概念形成的任务——从头构建新的心理模型,而非应用现有模式——仍然比需要在新情境中应用可识别变换的任务要困难得多。这一区别具有哲学意义:它与 Chollet 长期以来的论点一致,即当前的 LLM 是复杂的模式匹配器,而非真正的推理者。

Gemini Deep Think 遇到困难的任务涉及多个相互依赖的变换,其中它们之间的关系必须从极少数示例中推断;示例中明显的模式是故意的误导,而真正的规则是二阶抽象;以及需要空间推理的案例,这种推理超越了简单的几何变换,从二维投影到真正的三维建模。

这些失败案例对更广泛的 AI 能力评估具有启示意义。它们表明,测试时计算扩展——让模型进行更长时间的思考——在可以分解为模式匹配操作序列的任务上仍然有效,但在需要概念形成的任务上遇到了天花板,这类任务对人类来说计算成本也很高。

Gemini 的架构贡献

Google 公开的关于 Gemini Deep Think 特别擅长 ARC-AGI-2 的细节有限,但该模型的训练似乎比基础 Gemini 2.0 模型更加强调视觉推理和多步骤规划。”Deep Think” 的命名对应于一种推理配置,为每个问题分配更多的计算资源,在精神上与 o3 的高计算模式相似。

与 o3 的 ARC-AGI-1 方法的一个有意义区别是,Gemini Deep Think 似乎使用了更复杂的自我纠正机制——检测当前方法是否有效,并重构其推理策略,而不是简单地多次尝试相同方法并进行变化。这是 Chollet 框架表明对剩余 54.9% 任务所必需的那种元认知能力。

这对 AGI 辩论的意义

ARC-AGI-2 故意不是在任何完整意义上对”AGI”的衡量——它测试特定条件下的特定抽象推理形式。Chollet 明确表示,通过 ARC-AGI 的系统将展示通用智能的一个重要组成部分,而非智能本身。因此,45.1% 的成功率不会以简单的方式推动 AGI 时间表。

这确实表明,被归类为”AI难以解决的问题”的范畴,其缩小速度超过了2023年时代的大多数预测。ARC-AGI-2中的任务之所以被选中,是因为它们对GPT-4时代的模型来说具有挑战性。在同一基准发布年内就获得45%分数的系统,相较于那些预测,将达到这一能力水平的时间线压缩了大约两到三年。

对开发者和运营者更有用的框架是:在ARC-AGI-2等基准测试中展示的能力——从少量示例中进行新颖的规则推理、多步骤抽象推理、推理策略的自我纠正——将在未来十二到十八个月内越来越多地出现在通用AI系统中。为能够执行这些操作的AI系统做规划,比争论它们的AGI意义更为相关。

By Michael Sun

Founder and Editor-in-Chief of NovVista. Software engineer with hands-on experience in cloud infrastructure, full-stack development, and DevOps. Writes about AI tools, developer workflows, server architecture, and the practical side of technology. Based in China.

Leave a Reply

Your email address will not be published. Required fields are marked *