name: agentic-engineering description: AI 工程师操作手册——评估先行、任务拆解、按复杂度选模型、追踪成本。 origin: ECC
AI 工程方法论
当 AI agent 承担主要实现工作,人类负责质量把关和风险管控时,用这套方法论。
四大原则
- 先定义完成标准,再动手
- 把任务拆成 agent 能独立完成的单元
- 按任务复杂度选模型
- 用评估和回归检查来衡量结果
评估先行循环
- 定义能力评估(能不能做到)和回归评估(有没有搞坏旧功能)
- 跑基线,记录失败特征
- 执行实现
- 重新跑评估,对比差异
任务拆解:15 分钟规则
每个子任务应该满足:
- 可独立验证 — 不依赖其他子任务的结果
- 只有一个主要风险 — 出了问题容易定位
- 有明确的完成条件 — 能清楚判断"做完了没"
模型路由(按复杂度选模型)
| 模型 | 适合的任务 |
|---|---|
| Haiku(便宜快) | 分类、模板转换、小范围精确修改 |
| Sonnet(中等) | 功能实现、代码重构 |
| Opus(贵强) | 架构设计、根因分析、跨文件约束检查 |
升级规则: 只有当低档模型明确失败(且失败原因是能力不足)时,才升级到更高档模型。
会话策略
- 紧密耦合的子任务 → 在同一个会话中连续完成
- 阶段转换后(比如从设计到实现)→ 开新会话
- 里程碑完成后 → 做 compact(压缩上下文),不要在调试中途做
审查 AI 生成代码的重点
优先关注:
- 不变量和边界情况 — AI 最容易忽略的地方
- 错误边界 — 异常处理是否完善
- 安全和认证假设 — 有没有硬编码或绕过检查
- 隐藏耦合和发布风险 — 改动是否影响其他模块
不要在代码风格上浪费时间——如果已有自动格式化/lint 工具管风格的话。
成本纪律
每个任务追踪:
- 用了什么模型
- token 用量估算
- 重试次数
- 实际耗时(wall-clock time)
- 成功/失败
升级模型的唯一理由: 低档模型明确失败,且有清晰的能力差距证据。