Skip to content

录入

意图:把非结构化/半结构化的文档(纪要、报告、合同、PPT、Excel)转成结构化数据清单。本质是「抽取 + 规整」。


  • 从调研纪要提取需求清单(提出人 - 场景 - 痛点 - 方案)
  • 从合同/报告抽取关键字段成表
  • 批量文档 → 统一 schema 的记录
内容
输入多格式文档(Word/Excel/PDF/PPT),可能成批
输出结构化表(Excel/Word/Markdown),字段固定
  1. 先定 schema:抽取前明确目标字段,避免抽完才发现缺列。
  2. 断点续处理:批量大时支持中断恢复,不重头再来。
  3. 可溯源:每条记录尽量标注来源(哪份文档、哪段),便于核对。
  4. 批量并行:文档之间独立 → 适合拆子 agent 并行(见 设计指南/Agent设计)。
  5. 缺失显式标注:抽不到的字段标「未提及」,不要编。
  • psps-extractor(PSPS 需求清单提取)
  • research-report-generator(材料整合,偏报告但含抽取)
  • 🚧 TODO:格式解析(扫描件/合并单元格/PPT 文本框)常见坑