评测与改进
🔧 评测与改进
Section titled “🔧 评测与改进”[操作 + 解释] —— 横切所有设计层的质量底座:怎么证明它好(评测),以及翻车时怎么归因到根(失败治理)。
| 页面 | 管什么 |
|---|---|
| 评测与改进/评测 | 理念(Agent-as-Judge)、红线+质量层、三层金字塔、评测集、会话 JSONL 落地 |
| 评测与改进/失败分析与治理 | 8 层排查框架、错误 taxonomy、「是不是模型问题」决策树、指标体系、治理优先级 |
评测出问题 → 用失败治理归因;归因后的修复 → 回到 设计指南/Skill设计 / 设计指南/CLI设计/CLI设计规范。真实质量治理现场见 实践分享/控制价审核CLI化实战。
← 返回 Cookbook 概览