多年来,大型语言模型一直处于一个尴尬的中间地带——令人印象深刻地流利,却又令人沮丧地健忘,能够给出惊艳的一次性答案,却无法满足真实工作所需的深度、多步骤推理能力。OpenAI 发布了 GPT-5.4,它改变了这一局面。凭借百万令牌的上下文窗口和自主多步骤工作流执行能力,GPT-5.4 在 OSWorld-V 基准测试中获得了 75% 的分数——首次超过 72.4% 的人类基线。这不仅仅是一个更大的模型;它是一个根本不同类别的工具。作为数字同事的 AI 时代已经到来。
百万令牌的实际意义
上下文窗口一直是语言模型能力的无形天花板。在 8,000 个令牌时,你可以粘贴几页内容。在 128,000 个令牌时,可以是一短篇小说。而在一百万个令牌时,游戏规则完全改变。你可以给 GPT-5.4 喂入整个代码库——不是摘录,不是摘要,而是包含测试、文档、配置文件和提交历史的完整仓库。法律团队可以上传整个合同组合。研究小组可以同时加载数十篇学术论文,并要求模型综合所有论文的发现。
实际影响令人震惊。开发人员不再需要仔细筛选提示中应包含哪些文件。产品经理可以提供完整的规范文档,同时附上用户研究记录,并要求进行差距分析。当上下文窗口足够大,能够容纳所有相关信息时,提示工程——即决定包含什么上下文、排除什么上下文——的认知开销会大幅减少。
从聊天工具到自主代理
尽管上下文窗口的扩展令人印象深刻,但它甚至可能不是最重要的功能。GPT-5.4 引入了 OpenAI 所谓的代理工作流执行——能够将复杂任务分解为子步骤、按顺序执行、评估中间结果并在无需人工干预的情况下调整方向的能力。这不是早期模型的简单函数调用。GPT-5.4 可以编排多工具工作流:查询数据库、分析结果、起草报告、对照风格指南检查、发布到内容管理系统——所有这些都来自一个高级指令。
OSWorld-V 基准测试分数之所以重要,正是因为它衡量了这种现实世界任务完成能力。75% 的分数意味着,GPT-5.4 在处理四分之三的真实计算机使用场景(文件管理、网页导航、应用程序工作流)时,比普通人类参与者更可靠。对于软件团队来说,这意味着一个 AI 结对编程助手,它不仅提供代码片段,还能运行测试套件、解释失败原因、提出修复方案,并迭代直到测试通过。
竞争格局转变
这一公告并非在真空中发生。Anthropic 一直在通过其 Claude 模型推动上下文边界和工具使用的进步。Google Gemini 也提供百万 token 的上下文窗口,尽管性能特征不同。Meta 则通过开源的 Llama 模型持续普及化访问。但 GPT-5.4 将庞大的上下文、代理能力和基准领先的性能融为一体,创造了竞争对手现在必须匹配的新标杆。
对于评估 AI 平台的企业而言,决策矩阵变得更加复杂。原始语言能力的重要性已不如以往——大多数前沿模型都能写出合格的文章。现在的差异化因素是多步骤执行的可靠性、处理庞大上下文的准确性、规模化时的每 token 成本,以及与现有工具链的集成深度。GPT-5.4 似乎在前两个维度上领先,尽管定价和集成问题仍有待解答。
对开发者和团队的影响
如果 GPT-5.4 能兑现其承诺,开发工作流程将围绕它重组。代码审查变成与已读取存储库中所有文件的代理的对话。新团队成员的入职可以通过已吸收整个项目历史、文档和架构决策记录的 AI 来增强。调试从手动追踪执行路径转变为向代理询问——该代理在上下文中拥有完整的代码库——以识别根本原因。
但这并非一个替代的故事。75% 的 OSWorld-V 分数意味着四分之一的任务仍然失败。该模型的幻觉比其前身少,但仍然会产生幻觉。在高风险环境中——生产部署、金融交易、医疗系统——在没有人工监督的情况下自主执行仍然是不负责任的。最高效的团队将是那些设计适当检查点的人机工作流程的团队,将模型视为能力强大但偶尔不可靠的初级同事。
临界点问题
GPT-5.4 是代理 AI 的临界点吗?诚实的答案是:可能还不是,但它比大多数人预期的要快得多。该技术在结构化计算机任务上已超过人类基线。上下文窗口消除了输入大小的实际限制。剩余的差距——可靠性、模糊情况下的判断能力、真正的理解与复杂的模式匹配——正在随着每一代的发展而缩小。
GPT-5.4 明确确立的一点是,这一轨迹已经清晰可见。AI 系统将成为真正的数字同事——不是比喻意义上的,而是实际操作层面上的。现在就开始调整其工作流程、治理结构和技能发展计划的组织,将比那些等待完美的组织拥有显著优势。百万令牌的上下文窗口不仅是一个技术里程碑,更是邀请我们重新思考知识工作如何完成的契机。

N|哇,GPT-5.4的百万token上下文窗口太震撼了!我们公司在做聊天机器人,这对我有很大帮助。
N|我猜,百万token上下文窗口对于提升AI的决策能力肯定有帮助。感觉这会让我们在AI领域更具竞争力。
N|说实话,我对GPT-5.4的实际应用还不太清楚。能否详细说说它在哪些场景下能发挥最大效用?
N|初级工程师的我有点懵,这百万token上下文窗口对我们来说意味着什么?是不是要开始学习新的编程范式了?
N|产品经理视角,GPT-5.4的进步意味着用户交互体验将进一步提升。我们的产品肯定能借此脱颖而出。
N|怀疑论者在这里,这百万token上下文窗口听起来很炫酷,但AI真的能达到人类水平了吗?
N|技术爱好者表示,这真是AI发展史上的里程碑!期待看到更多关于GPT-5.4的案例研究和应用。
N|学生表示好奇,这百万token上下文窗口对语言模型的研究有什么实际意义呢?
N|我们公司正在尝试将AI应用于数据分析,这百万token上下文窗口会不会让我们的模型更加智能?
N|感觉AI的进步速度越来越快,我们是否已经准备好迎接这个变革?
N|作为高级开发者,我更关心GPT-5.4在实际应用中的性能和效率。它真的能满足大规模部署的需求吗?
N|对于AI,我们是不是应该有更高的期待?百万token上下文窗口或许只是一个开始。
N|其实,我觉得AI成为数字同事这个概念很有趣。它能否真正减轻我们的工作负担?
N|部分不同意,尽管GPT-5.4很强大,但AI取代人类工作是否真的可行呢?
N|我猜,随着AI技术的发展,我们公司可能会减少一些职位,这是否值得我们关注?
N|提问:GPT-5.4的百万token上下文窗口是否意味着AI的自主学习能力将进一步提升?
N|这百万token上下文窗口听起来很棒,但我们是否需要担心隐私和数据安全问题?
N|技术爱好者表示,希望看到GPT-5.4在实际应用中的表现,看看它能否帮助我们解决实际问题。
N|对于初级工程师来说,学习GPT-5.4的应用将是一次很好的实践机会。
N|产品经理视角,GPT-5.4的进步将使我们更好地理解用户需求,从而设计出更出色的产品。
N|作为怀疑论者,我对GPT-5.4的潜力持谨慎态度,但仍期待看到它在实际中的应用。
N|对于AI成为数字同事,我持乐观态度。它或许能够帮助我们解决一些难题。
N|作为学生,我期待着学习GPT-5.4的知识,以便将来能够为AI的发展做出贡献。