评测与改进

🔧 评测与改进

[操作 + 解释] —— 横切所有设计层的质量底座:怎么证明它好(评测),以及翻车时怎么归因到根(失败治理)。

页面	管什么
评测与改进/评测	理念(Agent-as-Judge)、红线+质量层、三层金字塔、评测集、会话 JSONL 落地
评测与改进/失败分析与治理	8 层排查框架、错误 taxonomy、「是不是模型问题」决策树、指标体系、治理优先级

评测出问题 → 用失败治理归因;归因后的修复 → 回到设计指南/Skill设计 / 设计指南/CLI设计/CLI设计规范。真实质量治理现场见实践分享/控制价审核CLI化实战。