Skip to content

检查清单

设计/上线前的速查清单。深度展开见各对应页。

  • description 写触发条件/触发词(不是「我能做什么」),正反例都给
  • SKILL.md ≤ 200–500 行,细节迁 references
  • 写了「何时用 / 何时不用」
  • 稳定动作靠 scripts/CLI,不靠模型自由发挥
  • 高风险动作有确认规则
  • 有 examples + troubleshooting + 明确完成标准

设计指南/Skill设计

  • doctor / help / schema
  • stdout 纯 JSON,stderr 走日志/进度
  • 错误结构化:error_code + hint + details
  • 写操作有 dry-run,高风险要 --yes
  • 写后有 verify/readback,返回 evidence
  • 命令名是业务动词、参数业务化(不是 API URL / --guid1)
  • 命令短;复杂度封进命令内部
  • 按场景 preset 暴露最小命令集

设计指南/CLI设计/CLI设计规范

等级类型策略
R0纯读直接执行
R1低风险写明确意图即可
R2状态变更默认 dry-run,需确认
R3财务/删除/撤销/外发dry-run + 人工确认 + audit + readback

设计指南/CLI设计/操作类CLI

  • 数据准确率 100%
  • 不造数据
  • 不靠检索/记忆作答

评测与改进/评测

✅ 失败归因决策树(是不是「模型不行」?)

Section titled “✅ 失败归因决策树(是不是「模型不行」?)”
1 Skill/工具说明清楚吗? 否 → 改文档
2 参数 schema 稳定可解析吗? 否 → 改 CLI
3 模型能看到必要上下文吗? 否 → 改上下文
4 错误给了可操作 hint 吗? 否 → 改错误输出
5 多模型都失败? 是 → 流程/工具问题
6 只有某模型清晰指令下反复违约? 才更可能是模型遵循问题

评测与改进/失败分析与治理

任务必须验证
文件生成ls -lh / 编码 / 大小 / 读回
图片视频file / 尺寸 / 发送 messageId
API 写操作写后 query/readback
Gitstatus / commit hash / push result

← 返回 参考