小型团队事件响应手册：故障应对指南

当警报在凌晨2点响起：为什么事件响应需要在事件发生前制定预案

小型团队在事件响应方面面临一个令人不安的事实：当系统严重故障时，最了解系统的人往往也是最恐慌的人。肾上腺素会削弱决策能力。如果没有记录在案的预案，最终会导致五个工程师在Slack频道里各做各的事，有人不小心重启了正常的服务，而且45分钟内都没有更新状态页面。本指南为小型团队提供一个实用的事件响应框架——不是NIST 800-61的理论版本，而是当你们三个人在午夜试图恢复生产数据库时真正有效的那个。

临时事件响应的核心问题

大多数小型团队处理事件的方式相同：有人发现系统故障，在Slack上发布消息，人们开始调查，最终问题得到解决。这种方法有效——直到它不再有效。临时响应灾难性失败的场景包括：

了解系统的那个人无法联系到
多人同时做出冲突的更改
事件涉及多个服务，没有人负责协调
同类型事件已经发生三次，因为没有事后回顾

预案不能替代专业知识。它创建了一个支架，让有经验的人在压力下应用他们的专业知识，同时也让经验较少的团队成员担任不需要深入了解系统的角色——比如管理沟通或记录时间线。

事件严重级别：保持简单

在编写任何预案之前，先定义你的严重级别。对于小型团队来说，四个级别通常是合适的。具体阈值不如将其记录下来并一致使用重要。

SEV-1： 生产环境完全瘫痪或数据正在损坏。全员参与。叫醒所有人。
SEV-2： 主要功能故障或性能严重下降。值班人员处理，如30分钟内无进展则升级。
SEV-3： 非关键功能故障或部分用户遇到显著性能问题。在工作时间修复。
SEV-4： 轻微问题、界面问题或单个用户报告。记录、优先排序，按正常工作流程修复。

将这些定义写入你的运行手册Wiki、值班文档和告警规则中。当PagerDuty触发SEV-1告警时，收到通知的工程师不应思考是否要呼叫他们的经理——严重级别已经告诉他们了。

事件中的角色

即使是三人团队在事件发生时也需要明确的角色分工。同一个人不应同时负责问题诊断、变更执行和客户沟通。明确定义以下角色：

事件指挥官（IC）

IC负责事件处理流程，而非技术解决方案。他们的工作是协调，而非修复。他们宣布严重级别、分配角色、设定调查时限、决定是否升级，并确保状态页面更新。关键的是，IC应该是房间里技术细节了解最少的人——这看似违反直觉但很重要。技术深度会导致视野狭隘。IC需要系统级的全局视野。

技术负责人

技术负责人负责诊断和修复。他们主导调查、提出解决方案，并执行（或监督）生产环境的变更。在SEV-1级别事件中，他们不应负责编写状态页面更新或回复客户私信——这些认知负荷属于IC的工作。

记录员

记录员维护事件的实时时间线。每个观察、每个对生产环境的变更、每个测试的假设都会带时间戳记录到日志中。这个角色看似不重要，直到你尝试编写事后回顾报告，才发现没人记得事件的先后顺序。如果事件持续时间较长，需要交接给新团队时，记录员的日志也极其宝贵。

# 示例事件日志格式（保存在共享文档或事件频道中）

## 事件 #2026-03-15 — 数据库连接耗尽
**宣布SEV-1：** 02:14 UTC
**IC：** Sarah
**技术负责人：** Marcus
**记录员：** Dev（异步，从警报记录）

### 时间线
02:14 - PagerDuty触发："prod-db-01数据库连接池耗尽"
02:15 - Sarah宣布SEV-1，创建#inc-2026-03-15频道
02:16 - Marcus加入。状态页面更新："正在调查错误率上升问题"
02:19 - Marcus：`SHOW PROCESSLIST`显示487个连接，最大为500。
         大部分处于"Sleep"状态，由app-server-03持有
02:22 - 假设：app-server-03存在连接泄漏。
         检查部署日志 — 01:55 UTC部署了新版本
02:24 - Marcus：重启app-server-03以释放其连接
02:26 - 连接数降至180。错误率恢复正常。
02:28 - 状态页面更新："问题已识别并解决。正在监控。"
02:45 - 无复发。SEV-1降级为SEV-3。已安排事后分析。

手册结构：每个运行手册必备内容

每个手册应涵盖特定的故障场景。目标不是记录所有可能的原因——而是记录最常见原因的诊断决策树，以及每种原因的修复步骤。

必备章节

一个好的运行手册包含六个章节。每个章节都要简洁。需要20分钟才能读完的运行手册在事件发生时没有用处。

1. 触发条件：什么样的警报或症状会导致人们查阅这份运行手册？请具体说明。”高错误率”不够具体，”API服务的5xx错误率超过1%持续3分钟以上”是一个触发条件。

2. 严重性评估：确定正确严重级别需要询问的问题。包括具体的指标阈值。

3. 诊断步骤：按逻辑顺序运行的一组结构化命令或检查。包括实际命令——不是”检查日志”，而是确切的日志查询。

# API服务高5xx错误率的诊断命令

# 1. 按端点检查当前错误率
kubectl logs -n production -l app=api-service --since=10m | 
  grep '"status":5' | 
  jq -r '.path' | 
  sort | uniq -c | sort -rn | head -20

# 2. 检查最近的部署
kubectl rollout history deployment/api-service -n production

# 3. 检查数据库连接健康状态
kubectl exec -n production deploy/api-service -- 
  curl -s localhost:8080/health/db | jq .

# 4. 检查上游依赖
kubectl exec -n production deploy/api-service -- 
  curl -s localhost:8080/health/dependencies | jq .

# 5. 检查APM中的最近错误模式
# 导航至：https://apm.internal/services/api-service/errors?timeRange=15m

4. 修复步骤：针对每个已识别原因的具体行动，包括每个操作的回滚步骤。永远不要只记录修复行动而不记录如何撤销它。

5. 升级标准：何时升级、联系谁以及如何联系。包括电话号码，而不仅仅是Slack账号——Slack可能宕机。

6. 事后行动：此类事件后需要采取哪些后续行动。链接到事后分析模板。

团队首先需要的运行手册

从发生频率最高或会造成最大损害的五种场景开始。Web应用团队的常见首批运行手册：

数据库不可用/连接耗尽
部署回滚程序
SSL证书过期（是的，这仍然会发生）
DDoS或流量激增导致服务降级
数据泄露嫌疑或确认未授权访问

安全事件响应预案值得特别关注。这是需要记录程序的场景中最为关键的情况，因为它涉及法律义务（安全事件通知法规）、与非技术利益相关者的协调，以及证据保全，这些证据可能会被善意的修复行动销毁。

# 安全事件响应清单 — 前30分钟
# 在取证团队做出决定前，切勿清除或重启任何系统

[ ] 宣布严重程度并创建事件沟通渠道
[ ] 通知：工程负责人、法务/合规部门、如果确认数据受影响则通知CEO
[ ] 隔离（非终止）疑似受影响的实例：
    aws ec2 create-security-group --group-name ISOLATED-INCIDENT-2026-03-XX
    aws ec2 modify-instance-attribute --instance-id i-XXXX 
      --groups sg-ISOLATED-ID
[ ] 如有可能，捕获内存转储（证据保全）
[ ] 在进行任何更改前，对受影响的卷创建EBS快照
[ ] 如果尚未启用，则增强日志记录：
    aws cloudtrail start-logging --name prod-trail
[ ] 检查发现事件前24小时的CloudTrail日志
[ ] 暂勿通知客户或监管机构 — 先确认影响范围
[ ] 在事件日志中记录每个行动及其时间戳

沟通模板

在处理SEV-1级别事件时，从头开始编写状态页面更新会消耗宝贵的认知资源。请提前准备模板：

# 模板：初始状态页面更新（SEV-1）
标题：正在调查[服务名称]的问题
正文：我们注意到影响[功能/服务]的问题。
我们的团队正在积极调查。我们将在[15/30]分钟内提供更新。
状态：调查中

# 模板：进度更新
标题：[服务名称] — 已确定原因，正在实施修复
正文：我们已确定根本原因为[简要描述]。
我们正在实施修复，预计在[时间范围内]解决问题。
受影响用户：[范围]。目前[X]%的请求失败。
状态：已确定

# 模板：问题已解决
标题：[服务名称] — 已解决
正文：影响[服务]的问题已于[UTC时间]解决。
[简要描述修复内容]。我们将在48小时内发布事件回顾报告。
对于造成的不便，我们深表歉意。
状态：已解决

事件回顾：大多数团队会跳过的环节

当服务恢复时，事件时间线结束。而事件流程的结束，是当你已经采取措施防止事件再次发生或降低其影响时。事件回顾不是追责会议——它是对系统（技术和人为因素）为何允许事件发生的结构化分析。

无责后的复盘会问：”在我们的系统、流程或工具中，是什么创造了导致此次失败的条件？”而不是”谁犯了错误？”这种区别对团队文化至关重要。害怕被指责的工程师会在事件期间隐藏信息。而信任复盘流程的工程师则会分享他们所知道的一切。

在记忆犹新时安排事后分析会议，不超过48小时。为行动项目分配截止日期和负责人。跟踪这些行动项目的完成情况——事件管理中最常见的失败是找到了正确的解决方案却从未实施。

工具推荐

你不需要昂贵的工具来有效运行事件响应。一个小团队可以很好地使用以下工具：

PagerDuty 或 Opsgenie： 值班调度、告警路由和升级策略
Statuspage.io 或 Instatus： 面向客户的状态沟通
专用事件 Slack 频道模式： #inc-YYYY-MM-DD-简短描述
Confluence、Notion 或普通的 Git 仓库： 运行手册存储——保持更新比格式更重要
Grafana + AlertManager： 基于指标的告警，触发你的 PagerDuty 集成

最高回报的投资不是工具，而是一种实践：每季度进行一次30分钟的桌面演练，使用你的手册走过一个假设的事件。你会发现漏洞、过时的命令和缺失的升级联系人。在桌面演练中发现这些问题，总比在凌晨2点发现要好。

结论

编写和维护事件手册的小团队总是会胜过依赖部落知识的大团队。手册不需要完美。它需要存在，在事件发生时能够找到，并且在每次暴露出漏洞的事件后进行更新。从你最常见故障模式的手册开始，在桌面演练中练习，然后在此基础上扩展。

目标不是消除事件。系统会失败。目标是以更少的混乱、更快的速度恢复，并建立制度化的知识，使下一次事件比上一次的严重程度更低。

关键要点

定义四个严重级别，并明确阈值。严重级别决定谁会被呼叫以及遵循什么升级路径。
在事件期间，分离事件指挥官、技术负责人和记录员的角色——即使在小型团队中也是如此。
每个手册必须包含确切的诊断命令、回滚步骤、升级标准和事后跟进行动。
安全响应手册需要特别关注：在修复前保留证据，隔离而非终止受影响的系统。
当行动项目完成时，事后分析过程才算结束，而不是文档编写完成时。