第 05 篇 · 运维篇
状态: ✅ 5 个子章节完成 目标读者: 运维工程师 / SRE / DevOps
一、本篇目标
解决运维侧的核心问题:
- 如何安全接收测试交付的版本:准出报告不合格不上线
- 上线节奏如何把控:灰度、全量、回滚的标准动作
- 线上稳定性如何保障:监控、告警、日志、故障
- AI 如何帮助运维:日志分析、告警归因、故障复盘
二、运维在整个研发流程中的位置
测试场景 ──► 可上线版本 ──►┌─────────────────┐
│ 运维场景 │
│ │──► 运行指标 + 故障报告
│ 本篇的范围 │
└─────────────────┘
│
▼
业务场景(形成闭环)
三、运维的输入把关(对测试的要求)
运维接收版本前必须确认:
| 检查项 | 来源 |
|---|---|
| 准出报告已签字 | 测试 |
| 灰度验证 checklist 已提供 | 测试 |
| 回滚方案就绪 | 测试 / 开发 |
| 监控埋点已确认 | 开发 |
| 上线窗口已预约 | 项目经理 |
| 应急联系人已到岗 | 项目经理 |
详见 测试 → 运维 契约。
四、本篇目录
| 章节 | 内容 | 状态 |
|---|---|---|
| 01 发布 SOP | 灰度、回滚、DB 发布、CI/CD | ✅ |
| 02 监控与告警 | 三层监控、RED/USE、日志、告警分级 | ✅ |
| 03 故障响应 | 分级、IC 制、Runbook、值班、演练 | ✅ |
| 04 故障复盘 | Blameless、5 Why、Action Item、度量 | ✅ |
| 05 AI 辅助运维 | 8 个核心 Prompt 模板 | ✅ |
五、当前可用的相关资源
| 资源 | 位置 |
|---|---|
| 测试 → 运维 契约 | docs/chapters/04-testing/03-roles-contracts/ops-contract.md |
| 准出报告模板 | templates/testing/test-reports/ |
| 灰度验证 Checklist | 见 ops-contract.md |
六、后续补充重点
- 上线 SOP 清单(按业务类型分类)
- 故障分级标准(P0-P4)
- 故障响应流程图
- 5Why 复盘模板
- 告警降噪与分级规则
- 应急预案模板
七、AI 辅助运维的嵌入点
| 场景 | 用 AI 做什么 |
|---|---|
| 日志分析 | 海量日志中定位异常模式 |
| 告警归因 | 把多条相关告警聚合成一条根因 |
| 故障复盘 | 生成时间线、提取改进项 |
| 容量预测 | 根据历史数据预测资源需求 |
| 安全事件分析 | 识别异常访问模式 |