Language:Chinese VersionEnglish Version

Kubernetes 的发布列车持续前进,而 1.36 版本——计划于 2026 年 4 月底发布——恰好在编排平台面临自转向云原生微服务以来最大演变压力的时刻到来。AI 工作负载正在重塑集群架构,各层安全要求不断收紧,而运行生产级 Kubernetes 的运营复杂性已将许多 SRE 团队推向极限。以下是 v1.36 带来的新特性及其重要性。

安全功能升级为稳定版

Kubernetes 1.36 将多项关键安全功能从测试版提升为稳定版,表明项目认为这些功能已达到生产就绪状态,并承诺保持长期 API 兼容性。结构化身份验证配置允许管理员使用声明式配置文件而非命令行标志来定义身份验证链,现已正式发布(GA)。这是一项长期期待已久的改进——通过 API 服务器的标志来管理身份验证在规模上总是脆弱且容易出错。

授权改进同样重要。新的结构化授权配置允许链接多个授权器,并对每个授权器评估的请求进行细粒度控制。结合使用 CEL(通用表达式语言)的验证准入策略稳定版发布,集群运营商现在拥有一个连贯的、声明式安全堆栈,可以像其他基础设施即代码工件一样进行版本控制和审计。

工作负载隔离也得到了增强。Pod 的用户命名空间将容器 UID 映射到无特权的主机 UID,现已升级为稳定版。这是一种纵深防御措施,显著减少了容器逃逸的影响范围——如果进程突破其容器限制,它将以 nobody 用户身份落在主机上,而不是 root。

自愈集群和运营弹性

1.36 中一个较为低调但影响深远的变化是改进的自愈行为。节点生命周期控制器现在能更智能地处理基于污点的驱逐,减少了节点不可达时可能发生的级联故障。Pod 中断预算在滚动更新期间获得了更新,使其更具可预测性,并且调度器对节点资源压力信号的感知能力也得到了提升。

对于运行大型集群的运营商来说,控制平面可扩展性的改进是受欢迎的。Etcd 观察性能已得到优化,大型列表操作期间 API 服务器的内存消耗减少,并且在具有异构工作负载的基准测试中,调度器吞吐量提高了约 15%。这些不是头条功能,但它们直接减轻了平台团队的运营负担。

AI 工作负载调度:Kubernetes 遇见 GPU

1.36 版本中最具前瞻性的变化直面了房间里的大象:AI 和机器学习工作负载正涌入 Kubernetes 集群,而该平台最初并非为此设计。在早期版本中达到测试版的动态资源分配 (DRA) 框架现在获得了显著增强。DRA 允许通过结构化 API 请求和分配 GPU、FPGA 和自定义加速器等设备,而不是需要硬编码资源名称的简陋设备插件机制。

1.36 版本的新增功能是对 GPU 拓扑感知的改进支持。当在多个 GPU 上训练大型模型时,这些 GPU 之间的互连拓扑会显著影响性能——通过 NVLink 连接的两个 GPU 通信速度将比通过 PCIe 连接的两个 GPU 快几个数量级。调度器现在可以将拓扑约束因素纳入放置决策,确保多 GPU Pod 能够放置在请求的加速器具有最佳互连性的节点上。

模型服务工作负载也受益于新的扩展原语。现已稳定的网关 API 集成为推理端点提供了复杂的流量分割功能,支持基于百分比的流量路由进行新模型版本的灰度部署,并在错误率阈值达到时自动回滚。

弃用和移除:需要注意的内容

每个 Kubernetes 版本都会移除一些功能,1.36 版也不例外。内置云提供商集成继续走向移除——Azure 和 vSphere 内置提供商现已完全弃用,需要在 1.38 版本之前迁移到外部云控制器管理器。用于结构化日志记录的传统 klog 文本格式已被移除;JSON 格式的日志现在是默认且唯一的选择。

操作员还应注意,一些已升级到稳定版功能的相关测试版 API 版本正在被移除。如果您的清单引用了 CronJobs、PodDisruptionBudgets 或 CSI 驱动器等资源的测试版 API 版本,您需要更新它们。迁移过程很简单,但必须在升级前完成。

Kubernetes 是否已准备好迎接 AI 时代?

诚实的评估是,Kubernetes 正在适应,但这种适应还不完整。GPU 调度、拓扑感知和动态资源分配是真正的改进。但 AI 基础设施的根本挑战——持续数天消耗整个节点的长时间运行训练作业、需要所有 Pod 同时放置的组调度需求,以及空闲 GPU 资源的巨大成本——都超出了 Kubernetes 架构设计所能处理的范围。

关于 AI 工作负载将把 SRE 团队推向极限的预测正在被证实。Kubernetes 开箱即用功能与生产 AI 工作负载需求之间的工具差距,正由一系列附加组件生态系统填补:Kueue 用于作业排队,Volcano 用于组调度,以及各种自定义操作器用于模型生命周期管理。版本 1.36 缩小了这一差距,但并未完全消除。对于平台团队而言,信息很明确:及时升级,规划弃用流程,并投资理解 DRA —— 这是未来几年 Kubernetes 处理专用硬件的基础。

By Michael Sun

Founder and Editor-in-Chief of NovVista. Software engineer with hands-on experience in cloud infrastructure, full-stack development, and DevOps. Writes about AI tools, developer workflows, server architecture, and the practical side of technology. Based in China.

Leave a Reply

Your email address will not be published. Required fields are marked *

You missed