跳到主要内容

第 05 篇 · 运维篇

状态: ✅ 5 个子章节完成 目标读者: 运维工程师 / SRE / DevOps

一、本篇目标

解决运维侧的核心问题:

  1. 如何安全接收测试交付的版本:准出报告不合格不上线
  2. 上线节奏如何把控:灰度、全量、回滚的标准动作
  3. 线上稳定性如何保障:监控、告警、日志、故障
  4. AI 如何帮助运维:日志分析、告警归因、故障复盘

二、运维在整个研发流程中的位置

测试场景 ──► 可上线版本 ──►┌─────────────────┐
│ 运维场景 │
│ │──► 运行指标 + 故障报告
│ 本篇的范围 │
└─────────────────┘


业务场景(形成闭环)

三、运维的输入把关(对测试的要求)

运维接收版本前必须确认:

检查项来源
准出报告已签字测试
灰度验证 checklist 已提供测试
回滚方案就绪测试 / 开发
监控埋点已确认开发
上线窗口已预约项目经理
应急联系人已到岗项目经理

详见 测试 → 运维 契约

四、本篇目录

章节内容状态
01 发布 SOP灰度、回滚、DB 发布、CI/CD
02 监控与告警三层监控、RED/USE、日志、告警分级
03 故障响应分级、IC 制、Runbook、值班、演练
04 故障复盘Blameless、5 Why、Action Item、度量
05 AI 辅助运维8 个核心 Prompt 模板

五、当前可用的相关资源

资源位置
测试 → 运维 契约docs/chapters/04-testing/03-roles-contracts/ops-contract.md
准出报告模板templates/testing/test-reports/
灰度验证 Checklist见 ops-contract.md

六、后续补充重点

  • 上线 SOP 清单(按业务类型分类)
  • 故障分级标准(P0-P4)
  • 故障响应流程图
  • 5Why 复盘模板
  • 告警降噪与分级规则
  • 应急预案模板

七、AI 辅助运维的嵌入点

场景用 AI 做什么
日志分析海量日志中定位异常模式
告警归因把多条相关告警聚合成一条根因
故障复盘生成时间线、提取改进项
容量预测根据历史数据预测资源需求
安全事件分析识别异常访问模式

八、相关篇章