当 DeepSeek 公布 V3 的训练成本——一个 6710 亿参数模型的计算成本为 557.6 万美元时,人工智能行业不知道该如何反应。这个数字既小到令人难以置信,又大到无法忽视。其背后的架构是一种专家混合(MoE)设计,每次前向传播只激活 370 亿参数,这代表了一种根本性的转折点,而非渐进式改进,标志着前沿 AI 模型的构建和部署方式发生了变革。
要理解这一点,需要剖析 MoE 实际改变了什么——以及它没有改变什么。
密集模型问题
传统的 transformer 架构——完整的 GPT-4、Claude 2 和 Llama 2——都是”密集”模型。每个参数都参与处理每个 token。一个 700 亿参数的密集模型在生成每个单词时都会使用全部 700 亿参数。这创造了一种清晰的扩展关系:参数翻倍,推理时的计算量也大致翻倍,能力回报可预测(尽管会递减)。
密集扩展的问题在于推理时成本极其高昂。一个 1000 亿参数的密集模型仅加载权重就需要大约 200GB 的 GPU 内存,处理单个 token 之前就需要这么多。大规模运行它要么需要昂贵的大内存 GPU,要么需要在多个芯片间实现复杂的张量并行。这种经济模式对拥有大量基础设施投资的云提供商可行;但对大多数组织而言则不可行。
MoE 的改变
专家混合通过使参数使用条件化解决了这个问题。模型被划分为”专家”——专门的子网络——和一个”路由器”,它为每个 token 决定激活哪些专家的小子集。DeepSeek V3 总共有 6710 亿参数,组织成专家形式,但路由器每个 token 只激活其中的 370 亿参数。其余参数存在于内存中,但在该次推理中不进行任何计算。
这创造了一种反直觉的情况:一个 6710 亿参数的模型,计算起来却像是一个 370 亿参数的模型。能力来自总参数量(路由器可以在完整上下文中调用);推理成本来自激活的参数量。DeepSeek V3 在许多任务上的基准测试与 GPT-4o 相当,但每个 token 的运行成本大约只有后者的七分之一。
训练成本优势同样显著。密集模型训练需要每个参数在每一步都接收梯度更新,而MoE训练只为每个token更新激活的专家,从而减少了每一步的计算量。5.57百万美元这一数字之所以引人注目,并非因为其绝对成本低廉——很少有组织能如此随意地花费——而是因为它比同等密集模型训练便宜约10-15倍。采用这种成本结构训练的下一代MoE模型,将有比能够负担密集前沿训练的广泛得多的参与者来构建。
部署算术
对于部署模型的运营商而言,MoE算术改变了本地部署的可行性计算。一个671B的MoE模型在4位量化下需要约340GB GPU内存来加载完整权重,但在推理过程中只需要37B活跃参数所需的内存带宽。这使得它可以部署在八块H100 80GB GPU的配置上——虽然昂贵,但对于有严肃AI野心的企业来说是可以实现的,而不仅仅是云超大规模服务商。
与运行同等质量水平的密集70B模型相比:密集模型需要相同或更多的内存来实现 comparable 的能力,但由于所有70B参数都参与每个token生成,吞吐量更差。MoE的稀疏激活模式可以被利用来提高吞吐量——空闲的专家意味着空闲的计算资源,可用于批处理或并行请求。
MoE不能解决的问题
专家混合模型(Mixture of Experts)有其真实的局限性,而这些常常被爱好者们忽略。专家负载均衡是一个持续的挑战:如果路由器持续将某些类型的token发送到相同的专家,这些专家会成为瓶颈,而其他专家则闲置。DeepSeek的训练过程包含辅助损失以鼓励均衡的专家利用,但推理时的负载不平衡,特别是在专业领域,仍然是一个实际的问题。
在LLM推理中,内存带宽而非计算通常是实际瓶颈。尽管MoE模型每个token激活的参数更少,但从GPU内存加载这些参数对于小批量大小仍然主导着推理延迟。MoE的优势在大批量情况下最为明显,此时稀疏激活带来的计算节省超过了内存带宽的开销。
MoE的训练稳定性更难保证。路由器可能会崩溃——学会忽略大多数专家并将所有内容路由到少数几个专家——或者振荡,导致专家以 destabilize 梯度景观的方式专业化与非专业化。DeepSeek的训练需要仔细调整辅助损失和学习率计划,而这些在已发表的文献中尚未得到充分表征。复制他们的结果并不简单。
竞争格局的转变
DeepSeek V3 更重要的意义不在于架构本身——MoE 自 2017 年”超大规模神经网络”论文以来就已存在——而在于它证明了激进的 MoE 扩展可以在远低于训练成本的情况下达到密集前沿模型的性能水平。这改变了谁能够参与前沿 AI 开发。
过去三年,前沿 AI 的经济状况强烈倾向于拥有数千高端 GPU 和数十亿美元训练预算的组织:OpenAI、Google、Anthropic、Meta。DeepSeek V3 表明,资源充足但规模未达到超大规模云服务商水平的团队,通过正确的架构选择也能达到前沿能力。计算访问的护城河正在变窄。
这对企业 AI 市场产生了下游影响。如果前沿质量的模型能够以 MoE 效率水平进行训练和部署,API 推理的价格压力将加剧。这也加速了专业专家模型的发展——MoE 架构自然支持针对领域专业化进行特定专家的微调,而不会导致通用能力的灾难性遗忘。
效率拐点是真实存在的。问题不在于 MoE 是否会成为大规模 AI 的主导架构——它很可能将会——而在于工具、训练方法和部署基础设施能以多快的速度跟上,以支持市场所要求的大规模应用。
