video-text-storyboard

name: video-text-storyboard description: 使用 AI 生成结构化文本分镜，作为视频生成的输入。用于用户需要一个视频的文本描述（分镜）的场景。用户说"帮我生成一个分镜"、"帮我写视频脚本"时触发。

注意：如果是首次使用，确保已安装 videoclaw：uvx videoclaw --help

触发场景

用户说以下话时触发：

"帮我生成一个分镜"
"帮我写视频脚本"
"帮我设计一下这个视频怎么拍"
"帮我做一个视频方案"

输入

通过 AskUserQuestion 依次追问获取：

视频类型（第一个问，多选一）
- 故事类（情感短片、微电影）
- 产品展示类（品牌广告、电商视频）
- 角色动作类（武侠、舞蹈、格斗）
- 风景旅拍类（自然风光、城市街拍）
视频主题："这个视频想讲什么 / 展示什么？"
素材来源（二选一）
- 我有图片，直接上传
- 帮我用 AI 生成素材图（→ 先调用 t2i 生成素材图，再进入分镜生成）

类型专属追问（根据步骤1的结果分支）

类型	追问内容
故事类	角色外观描述 / 风格（搞笑/温馨/史诗感）
产品展示类	产品名称和外观描述 / 品牌调性（高端/科技感/轻快时尚）
角色动作类	角色外观描述 / 动作类型（武侠/舞蹈/格斗/特技）
风景旅拍类	拍摄地点/场景描述 / 氛围（治愈系/史诗感/纪录片风格）

时长："视频需要多长？15秒 / 30秒"

生成要点

加载 skill 后，利用上下文生成文本分镜。

模板选择

根据用户选择的视频类型，加载对应 references 文件：

故事类 → references/stories.md
产品展示类 → references/product.md
角色动作类 → references/action.md
风景旅拍类 → references/scenic.md

加载对应文件后，使用其中的模板结构和示例生成分镜。

分镜生成要点

每个分镜包含：

时间范围：精确的秒数（如 2-6秒）
画面：场景 + 动作 + 台词 + 情绪，融合在一个字段中
音效：此镜头的背景音效

合格示例

输入：做一个冰霜王登基的动画视频

输出：

【素材介绍】：
【@图1】黄色圆滚滚小怪兽，无鼻设计，头顶小橘子
【@图2】冰封圣剑，剑身蓝光流转
【@图3】冰之王冠，由冰晶碎片拼接而成
【@图4】冰封王座，台阶和座椅有冰晶纹路
【@图5】极寒冰封王座大殿场景，浮空冰峰刺破阴云

【场景描写】：
极寒冰封之地，浮空冰峰刺破阴云，寒风呼啸，冰封大殿寂静威严

【背景音】：
史诗感 夹杂冰面细微碎裂声

【分镜】：
【特写圣剑】（0-4秒）
画面：特写【@图2】冰封圣剑，剑身蓝光流转，插在寒冰基座上
音效：冰裂声、低沉嗡鸣

【拔剑】（4-8秒）
画面：镜头后拉。【@图1】黄色小怪兽肉垫爪子紧紧握住【@图2】剑柄，用力向上拔剑
音效：拔剑声、冰裂声

【冰甲覆身】（8-12秒）
画面：全身镜头。【@图1】小怪兽用力拔出圣剑瞬间，无数冰晶碎片从四面八方飞聚而来，瞬间拼接成完整冰甲覆盖全身
音效：剑鸣、冰晶碰撞声

【戴上王冠】（12-16秒）
画面：【@图1】小怪兽抬手，无数冰晶冰片从空中飞聚而来，拼成【@图3】冰之王冠；小怪兽将王冠戴在头上
音效：冰晶拼接声

【登基定格】（16-20秒）
画面：全景。【@图1】小怪兽（穿戴冰甲）手持【@图2】圣剑，站在【@图4】冰封王座上，双眼亮起冰蓝光芒，远处【@图5】冰峰堡垒在背景中矗立
音效：余音回荡

【注意事项】：
- 角色设定：黄色小怪兽严格保持无鼻设计，头顶小橘子
- 氛围：全程冷色调，突出寒冰、冰晶质感，与角色暖黄色形成强烈视觉对比
- 动作节奏：每个镜头一个简单动作，拔剑 → 冰甲覆身 → 戴王冠 → 登基
- 细节还原：头顶小橘子、冰封圣剑蓝光、王冠冰晶拼接纹路等关键细节必须清晰呈现

保存

生成后保存到 <project>/videos/<video>/storyboard/text_storyboard.md

交互确认

用 AskUserQuestion 询问用户：

"这是生成的分镜，满意吗？"

选项：

满意 → 继续下一步
修改 → 询问具体哪里要改
重新生成 → 不修改直接重试

常见错误

❌ 每个镜头安排太多内容：视频生成模型4秒绝对执行不了这么多东西，一个镜头只安排一个简单动作

✅ 每个镜头内容要精简，只描述一个动作或变化

❌ 素材引用混乱：不说明引用了什么

✅ 使用【@图1】【图2】格式明确引用素材

❌ 忽视音效：音效设计能大幅提升质量

✅ 加入音效：背景音乐 + 音效

❌ 缺少注意事项：结尾没有强调关键要素

✅ 添加注意事项：角色设定、氛围、动作节奏、细节还原

❌ 镜头数量太少：1-2个镜头无法展现完整故事

✅ 多用镜头没问题，每个镜头内容细化，但总量控制在30秒左右（6-8个镜头）

❌ 段落之间有多余空行：每个段落、镜头之间不需要空行

✅ 全部连续书写，不要有空行

反例：

剧情梗概

大法师安东尼达噜想要在小镇广场展示法术。

镜头1
阳光明媚的小镇广场...

正例：

剧情梗概
大法师安东尼达噜想要在小镇广场展示法术。
镜头1
阳光明媚的小镇广场...