name: auto-draw-plot description: 根据用户描述生成高质量绘图 prompt,并按通用、roadmap、schematic 模式调用 gpt-image-2 或 Nano Banana/Gemini 图片模型 API;第 2 轮起基于上一轮 PNG 做 image-to-image 微调,迭代出满足视觉要求的 PNG 结果。 metadata: author: Bensz Conan short-description: 模式化需求理解 + multi-round image-to-image optimization + gpt-image-2/Nano Banana 生成 PNG keywords: - auto-draw-plot - nano-banana - gemini - parallel-vibe - visual evaluation - 图像生成
Auto Draw Plot
与 bensz-collect-bugs 的协作约定
- 如果用户环境里出现因本 skill 设计缺陷导致的 bug,先用
bensz-collect-bugs规范记录到~/.bensz-skills/bugs/,禁止直接修改用户本地 Claude Code/Codex 已安装的 skill 源码。 - 只在用户明确要求“report bensz skills bugs”时,才通过本地
gh调用将新 bug 推送到huangwb8/bensz-bugs;上传前必须先脱敏本地路径/用户名等隐私。
定位
- 以用户需求为起点,由宿主 AI 进行语义规划,再构造适用于当前图片 provider 的 prompt;脚本默认不调用额外 Gemini 文本接口。
- 默认模式是
general;用户明确要技术路线图/roadmap/flowchart 时使用roadmap,明确要原理图/机制图/架构图时使用schematic。后续新增类型应作为config.yaml:modes.presets扩展,不改主流程。 - 默认通过
scripts/run_draw_plot.py在独立隐藏工作区里完成“parallel-vibe 规划留痕 → prompt → 出图 → 视觉评估 → 继续/停止”的闭环;parallel-vibe是必选工作流的一部分,不是可选增强。 - 默认工作区是当前目录下的
.draw-plot/run-<timestamp>/;所有中间文件必须留在隐藏目录里。宿主 AI 在正式检查 API、初始化工作区或开始出图前,必须先向用户明确声明本次任务.draw-plot根目录的绝对路径,方便用户实时监督。轻量测试目录固定为./tests/draw-plot。
输入
user_need(必需):自然语言描述的图像需求、输出用途、必要的视觉语义与格式要求。mode(可选):general/roadmap/schematic;默认general。模式只改变 prompt preset、默认画布和评估口径,不引入 legacy draw.io 渲染器。api_config(可选):指向~/.bensz-skills/config/remote.env的路径;默认auto只在运行前按优先级选择可用 provider。image_provider(可选):用户明确指定的图片模型/provider,如gpt-image-2或nano_banana。显式指定后必须只用该 provider,失败时暂停并报告原因,不得切换到其他模型。allow_provider_fallback(可选):只有用户明确说“失败可以换模型/可以回退到另一个 provider”时才为 true。max_rounds(可选):最大优化轮数,默认 3;若用户另有指定,以用户为准。visual_constraints(可选):比例、期望布局、色调、字体等硬约束。尺寸只作为 provider 原生尺寸选择参考,不承诺最终 PNG 像素。reference_images(可选):用于 prompt 引导的风格/布局图;第 2 轮起上一轮output.png会自动作为第一参考图,用户参考图排在其后。workspace_base(可选):用户显式指定的隐藏工作区根目录;未指定时使用当前目录.draw-plot/。
输出
- 至少 1 张合乎需求的
png图像。 - 隐藏目录里的
meta/analysis.json/meta/result.json:记录每轮 prompt、模型参数、参考图策略、评估结果、最终选图和停止原因。 - 每轮图片 meta 必须区分
requested_provider_size、native_size、output_size与postprocess_resize_applied;默认postprocess_resize_applied=false。 - 每轮目录:
rounds/round-XX/prompt.txt、rounds/round-XX/prompt-plan.json、rounds/round-XX/parallel-plan.json、rounds/round-XX/output.png、rounds/round-XX/evaluation.json以及image-debug//evaluation-debug/;gpt-image-2默认主动使用 Sub2API image job endpoint,image-debug/request.json、async-job-initial.json、async-job-polls.json与成功下载时的async-job-result.json必须保留完整证据。 - run 级
parallel-vibe/parallel-plan.json与parallel-vibe/parallel-plan.round-XX.json:每轮必留痕的 parallel-vibe plan。
运行前检查
- 先解析本次任务的隐藏工作区根目录:若用户传入
workspace_base,解析该路径;否则使用project_root/.draw-plot。必须把解析后的绝对路径用可见消息告诉用户,例如:本次 auto-draw-plot .draw-plot 工作区绝对路径:/abs/project/.draw-plot。这条消息必须出现在 API 检查、init_workspace.py、run_draw_plot.py或任何图片生成调用之前;不要只把路径写进run-manifest.json。 - 默认优先读取本地 Codex 配置:从
~/.codex/config.toml获取 BenszAPI base URL,从~/.codex/auth.json获取OPENAI_API_KEY | OPENAI_API,再使用gpt-image-2;环境变量与remote.env只作为缺失字段的兜底来源。 gpt-image-2只能绑定benszresearch.com子域名 base URL;非 HTTPS、裸域、非白名单域名或缺少 key 时不得绕过校验。- 如果用户点名
gpt-image-2、Nano Banana、Gemini或其他具体 provider,运行前检查和后续出图都必须固定在该 provider;失败时输出可执行的配置/额度/端点错误,不自动切到另一个模型。 - 只有用户主动要求允许回退时,才设置
allow_provider_fallback=true或脚本参数--allow-provider-fallback;回退路径使用~/.bensz-skills/config/remote.env中的GEMINI_BASE_URL、GEMINI_API | GEMINI_API_KEY、GEMINI_MODEL。 - 再运行
scripts/nano_banana_check.py。默认auto会按 provider 优先级检查可用图片模型;若用户指定 provider,应把--provider <name>传给主脚本,报告中不要泄露秘密,仅说明 provider、模型和 base URL。
工作流
- 理解需求与模式:宿主 AI 先把用户需求拆成“主体 / 结构 / 风格 / 硬约束 / 禁止项”,并解析
mode;未指定时用general。需要时参考references/prompt-guidelines.md。 - 声明监督路径:在正式动作开始前,宿主 AI 必须根据当前
project_root与可选workspace_base计算.draw-plot根目录绝对路径,并用可见消息告诉用户;初始化后可再补充实际run_dir,但不能用run_dir补充替代启动前的.draw-plot根目录声明。 - 检查 API:运行
scripts/nano_banana_check.py。若用户指定模型/provider,主流程必须传--provider <name>并只检查该 provider;若默认auto,可按优先级选择一个运行前可用 provider。不要把“指定模型失败”改写成“自动使用另一个模型”。 - 初始化隐藏工作区:运行
scripts/init_workspace.py,默认建立.draw-plot/run-<timestamp>/,写出run-manifest.json。 - 生成 parallel-vibe 计划:每一轮开始前,必须生成该轮的
parallel-vibeplan,至少写出:parallel-vibe/parallel-plan.round-XX.jsonparallel-vibe/parallel-plan.json(latest)rounds/round-XX/parallel-plan.json
- 生成第 1 轮 prompt:
- 优先由宿主 AI 在调用脚本前完成需求拆解与 prompt 规划;
run_draw_plot.py只做本地模板拼装与护栏合并,不默认调用 Gemini / Nano Banana 等远端文本规划接口;- prompt 仍需忠实反映用户需求,不得暴露密钥或绝对路径。
- 调用图片模型:运行
scripts/generate_image.py或主入口scripts/run_draw_plot.py;gpt-image-2纯文本出图默认提交到/images/jobs/generations,存在参考图时默认提交到/images/jobs/edits,同步/images/generations//images/edits只在 job endpoint 明确返回 404/405/501 且配置允许时作为兼容回退。429、500、502、503、504 不得改走同步接口,应按 async job 提交失败重试或报错。--canvas-width/--canvas-height只表达期望布局比例,并映射到 provider 支持的原生尺寸;默认直接保存 provider 返回的 PNG,不插值放大、不贴到伪 4K 画布。只有用户明确要求统一导出尺寸时,才可使用--postprocess-resize --postprocess-width <W> --postprocess-height <H>,并必须在 meta 中保留后处理记录。若gpt-image-2返回 job/task 状态、内联response或result_url,脚本按config.yaml:api.async_image_job轮询/下载,直到拿到图片、任务失败或超时。默认不在生成/编辑失败后跨 provider 重试;只有用户明确授权时才加--allow-provider-fallback,否则把失败原因和 debug 落到本轮目录后暂停。 - 视觉评估:
scripts/evaluate_image.py默认只做启发式文件/分辨率检查并标记fallback_mode=heuristic,不调用 Gemini 文本接口;- 宿主 AI 必须根据最终 PNG、用户需求与
evaluation.json做语义把关,必要时人工触发下一轮。
- 多轮优化:上一轮若未通过,第
n+1轮必须把第n轮output.png作为第一参考图传给可消费参考图的图片 provider,并把第n轮evaluation.json的must_fix/prompt_patch拼进 prompt,要求模型在上一张图上做 image-to-image 微调,而不是从零重画;直到 AI 满意或达到max_rounds。默认轮数是 3,单一真相来源是config.yaml:generation.default_max_rounds。 - 交付:输出至少 1 张最终 PNG;隐藏目录里保留
meta/result.json供追溯。
模式说明
general:通用绘图模式,适合普通信息图、封面图、概念图和自由描述。roadmap:技术路线图模式,吸收 legacynsfc-roadmap的 PNG-only 约束;强调 3-5 阶段、阶段标题条、主链箭头、风险/备选虚线、A4 打印可读。schematic:原理图/机制图模式,吸收 legacynsfc-schematic的 PNG-only 约束;强调分组大框、圆角节点、机制链/模块关系、主链与辅助箭头分层。
不要把 roadmap / schematic 回退成 draw.io、SVG/PDF 或 TEX 强绑定流程;这些 legacy 能力只作为 prompt 和评估经验迁移。
parallel-vibe 必选层
parallel-vibe是必选层:即使宿主 AI 最终不真正启动parallel-vibeCLI,也必须按它的 thread/workspace 协议为每一轮写出合法plan.json。- 主入口
scripts/run_draw_plot.py已经会为每一轮自动生成 parallel-vibe plan,用户无需额外手工执行。 - 若宿主 AI 想把“下一轮 prompt 草案”真正交给独立线程处理,则直接复用该轮
parallel-plan.round-XX.json。 parallel-vibeworker 当前仍只负责在隔离 workspace 里产出 prompt 草案与评估请求模板;真正的出图与评估继续由本 skill 的主脚本完成,避免跨 workspace 回写导致不稳定。
测试与验证
- 轻量测试必须在
tests/draw-plot下完成;每次执行都应该在该目录内生成TEST_PLAN.md/TEST_REPORT.md,并把中间文件限定在tests/draw-plot/_artifacts/。 - auto-test-skill 的 A/B 轮也只能操作 tests 目录,确保
p0-p2问题均闭环。
参考文件
references/prompt-guidelines.md:prompt 结构模板与迭代策略。references/parallel-plan.md:合法的parallel-vibeshell plan 模板,说明 thread 如何只负责 prompt 草案。