Language:Chinese VersionEnglish Version

在AI历史上的大部分时间里,提升模型能力的主要杠杆很简单:训练更长时间、使用更多数据、采用更多参数。Kaplan等人在2020年发布的扩展定律将这一直觉形式化为一条可预测的曲线——计算量翻倍,损失函数就能获得一致的改善。OpenAI的GPT系列、Anthropic的Claude模型以及Google的Gemini都是通过激进地沿着这条曲线攀升而崛起的。

到2025年和2026年,另一种扩展轴出现了:不是训练计算,而是推理计算。问题从”训练这个模型需要多少成本?”转变为”我们在它回答之前允许它思考多久?”这些结果足够令人惊讶,迫使人们重新评估AI能力的真正含义及其实现方式。

推理模型的突破

OpenAI的o3模型最戏剧性地展示了这种潜力。在ARC-AGI-1这一专门设计用来抵抗记忆并测试新颖推理能力的基准测试中,o3达到了87.5%的分数——这一分数比早期的扩展定律预测所需的模型规模要大几个数量级,而现有技术还无法实现如此规模的模型。o3实现这一成就并非依靠更多参数,而是因为它被允许在给出最终答案前生成更长的思维链。

作为开源模型发布的DeepSeek R1,在约为o3报告推理成本二十分之一的情况下,重现了大部分这种能力。成本差异之所以重要,是因为它表明测试时计算扩展主要不是蛮力问题——而是关于训练模型高效分配其推理预算的问题。

其底层机制是一种迭代式自我纠正的形式。标准LLM通过单次前向传播生成答案,而推理模型则生成一系列中间步骤,评估这些步骤(通过模型学习到的行为而非外部评判者进行隐式评估),修正其方法,最终收敛到一个答案。Wei等人在2022年推广的”思维链”框架捕捉了这一直觉的部分内容;而o3/R1的生成方式则将其推进了一大步。

为何这改变了能力上限

预训练扩展定律正面临实际限制。显著推进前沿密集模型所需的计算预算增长速度快于支持它的基础设施。2025年最大的训练运行需要消耗数万个H100芯片数月时间;下一代模型则需要目前尚不存在且无法在所需规模上提供的基础设施。

测试时计算扩展面临不同的约束:它用延迟换取能力,而这种权衡可以在部署时进行调整。推理模型可以快速回答简单查询,并为复杂查询扩展其思考过程。相同的模型权重支持多种能力水平,具体取决于用户(或应用程序)愿意等待的时间。这与在训练过程中固化在模型权重中的固定能力水平有着本质区别。

对于那些正确性比速度更重要的任务——代码生成、数学证明验证、多步骤规划、科学假设生成——延迟成本是可以接受的。一个需要30秒才能正确解决问题而更快的模型会出错的模型,对于该用例来说显然更有价值。

搜索框架

研究人员已开始将测试时计算扩展框定为搜索问题。模型不仅是在生成文本;它正在搜索可能的推理路径空间,寻找通往正确答案的路径。不同的搜索方法具有不同的效率特性。

思维链推理是一种通过推理步骤进行的深度优先搜索。过程奖励模型对中间推理步骤而非仅最终答案进行评分,为引导搜索朝向更有希望的分支提供了信号。应用于语言模型推理的蒙特卡洛树搜索(MCTS)是同一理念更具结构化的版本——探索多个分支,评估它们,剪除不良分支,遵循有希望的分支。

因此,推理模型的性能提升主要不在于模型”知道更多”——基础权重与同规模标准模型具有相同的知识。而在于模型通过结构化搜索更好地找到正确的知识并正确应用它。

对模型评估的影响

测试时计算扩展带来了测量问题。那些旨在测量模型知识的基准——如保留文本的困惑度、多项选择题的准确率——无法区分知道答案的模型和能够通过推理找到答案的模型。推理模型的基准分数混淆了基础模型的质量、其搜索过程的质量以及为推理分配的计算预算。

ARC-AGI-2在o3几乎饱和ARC-AGI-1后发布,旨在创建仅靠推理不足的任务——需要真正的全新概念形成的任务。Gemini Deep Think在该基准上取得了45.1%的成绩,令人印象深刻;这也提醒我们,基准中仍有54.9%的问题未解决,并且复杂的测试时搜索与真正的通用智能之间的差距仍然巨大。

对开发者的变化

对于基于 AI API 进行开发的开发者来说,实际意义在于能力与成本的权衡现在已成为一个可调参数。标准模型既便宜又快速;而推理模型则更昂贵、速度更慢,但在复杂任务上准确率显著提高。正确的选择取决于您的应用场景。

对于简单的分类、提取和生成任务,标准模型仍然是正确的选择。对于错误率会带来重大成本的任务——将在生产环境中运行的代码、金融分析、医疗信息合成等——推理模型的额外成本可能因错误率的降低而得到合理化。这种经济性需要根据具体情况评估。

更长期的影响是结构性的:作为 AI 能力主要维度的训练计算优势正在结束。一个规模更小、价格更低但推理能力强的模型可能会胜过一个规模更大、价格更高但缺乏推理能力的模型——推理能力可以通过更好的搜索策略、更好的奖励模型和更好的自我修正训练来提升,而无需更多的预训练计算。这是 AI 开发竞争动态的根本性变化,其影响才刚刚开始显现。

By Michael Sun

Founder and Editor-in-Chief of NovVista. Software engineer with hands-on experience in cloud infrastructure, full-stack development, and DevOps. Writes about AI tools, developer workflows, server architecture, and the practical side of technology. Based in China.

Leave a Reply

Your email address will not be published. Required fields are marked *

You missed