检查清单

等级	类型	策略
R0	纯读	直接执行
R1	低风险写	明确意图即可
R2	状态变更	默认 dry-run,需确认
R3	财务/删除/撤销/外发	dry-run + 人工确认 + audit + readback

1 Skill/工具说明清楚吗?      否 → 改文档
2 参数 schema 稳定可解析吗?   否 → 改 CLI
3 模型能看到必要上下文吗?     否 → 改上下文
4 错误给了可操作 hint 吗?     否 → 改错误输出
5 多模型都失败?              是 → 流程/工具问题
6 只有某模型清晰指令下反复违约? 才更可能是模型遵循问题

任务	必须验证
文件生成	`ls -lh` / 编码 / 大小 / 读回
图片视频	`file` / 尺寸 / 发送 messageId
API 写操作	写后 query/readback
Git	status / commit hash / push result

📋 检查清单

✅ Skill 自检

✅ CLI/CI 自检

✅ 安全分级(R0–R3)

✅ 评测红线(一票否决)

✅ 失败归因决策树(是不是「模型不行」?)

✅ 没有 evidence 不算 done

✅ 问数类立项 / 上线(专题)