name: video-text-storyboard description: 使用 AI 生成结构化文本分镜,作为视频生成的输入。用于用户需要一个视频的文本描述(分镜)的场景。用户说"帮我生成一个分镜"、"帮我写视频脚本"时触发。
video-text-storyboard
注意:如果是首次使用,确保已安装 videoclaw:
uvx videoclaw --help
触发场景
用户说以下话时触发:
- "帮我生成一个分镜"
- "帮我写视频脚本"
- "帮我设计一下这个视频怎么拍"
- "帮我做一个视频方案"
输入
通过 AskUserQuestion 依次追问获取:
视频类型(第一个问,多选一)
- 故事类(情感短片、微电影)
- 产品展示类(品牌广告、电商视频)
- 角色动作类(武侠、舞蹈、格斗)
- 风景旅拍类(自然风光、城市街拍)
视频主题:"这个视频想讲什么 / 展示什么?"
素材来源(二选一)
- 我有图片,直接上传
- 帮我用 AI 生成素材图(→ 先调用 t2i 生成素材图,再进入分镜生成)
类型专属追问(根据步骤1的结果分支)
类型 追问内容 故事类 角色外观描述 / 风格(搞笑/温馨/史诗感) 产品展示类 产品名称和外观描述 / 品牌调性(高端/科技感/轻快时尚) 角色动作类 角色外观描述 / 动作类型(武侠/舞蹈/格斗/特技) 风景旅拍类 拍摄地点/场景描述 / 氛围(治愈系/史诗感/纪录片风格) 时长:"视频需要多长?15秒 / 30秒"
生成要点
加载 skill 后,利用上下文生成文本分镜。
模板选择
根据用户选择的视频类型,加载对应 references 文件:
- 故事类 → references/stories.md
- 产品展示类 → references/product.md
- 角色动作类 → references/action.md
- 风景旅拍类 → references/scenic.md
加载对应文件后,使用其中的模板结构和示例生成分镜。
分镜生成要点
每个分镜包含:
- 时间范围:精确的秒数(如 2-6秒)
- 画面:场景 + 动作 + 台词 + 情绪,融合在一个字段中
- 音效:此镜头的背景音效
合格示例
输入:做一个冰霜王登基的动画视频
输出:
【素材介绍】:
【@图1】黄色圆滚滚小怪兽,无鼻设计,头顶小橘子
【@图2】冰封圣剑,剑身蓝光流转
【@图3】冰之王冠,由冰晶碎片拼接而成
【@图4】冰封王座,台阶和座椅有冰晶纹路
【@图5】极寒冰封王座大殿场景,浮空冰峰刺破阴云
【场景描写】:
极寒冰封之地,浮空冰峰刺破阴云,寒风呼啸,冰封大殿寂静威严
【背景音】:
史诗感 夹杂冰面细微碎裂声
【分镜】:
【特写圣剑】(0-4秒)
画面:特写【@图2】冰封圣剑,剑身蓝光流转,插在寒冰基座上
音效:冰裂声、低沉嗡鸣
【拔剑】(4-8秒)
画面:镜头后拉。【@图1】黄色小怪兽肉垫爪子紧紧握住【@图2】剑柄,用力向上拔剑
音效:拔剑声、冰裂声
【冰甲覆身】(8-12秒)
画面:全身镜头。【@图1】小怪兽用力拔出圣剑瞬间,无数冰晶碎片从四面八方飞聚而来,瞬间拼接成完整冰甲覆盖全身
音效:剑鸣、冰晶碰撞声
【戴上王冠】(12-16秒)
画面:【@图1】小怪兽抬手,无数冰晶冰片从空中飞聚而来,拼成【@图3】冰之王冠;小怪兽将王冠戴在头上
音效:冰晶拼接声
【登基定格】(16-20秒)
画面:全景。【@图1】小怪兽(穿戴冰甲)手持【@图2】圣剑,站在【@图4】冰封王座上,双眼亮起冰蓝光芒,远处【@图5】冰峰堡垒在背景中矗立
音效:余音回荡
【注意事项】:
- 角色设定:黄色小怪兽严格保持无鼻设计,头顶小橘子
- 氛围:全程冷色调,突出寒冰、冰晶质感,与角色暖黄色形成强烈视觉对比
- 动作节奏:每个镜头一个简单动作,拔剑 → 冰甲覆身 → 戴王冠 → 登基
- 细节还原:头顶小橘子、冰封圣剑蓝光、王冠冰晶拼接纹路等关键细节必须清晰呈现
保存
生成后保存到 <project>/videos/<video>/storyboard/text_storyboard.md
交互确认
用 AskUserQuestion 询问用户:
"这是生成的分镜,满意吗?"
选项:
- 满意 → 继续下一步
- 修改 → 询问具体哪里要改
- 重新生成 → 不修改直接重试
常见错误
❌ 每个镜头安排太多内容:视频生成模型4秒绝对执行不了这么多东西,一个镜头只安排一个简单动作
✅ 每个镜头内容要精简,只描述一个动作或变化
❌ 素材引用混乱:不说明引用了什么
✅ 使用【@图1】【图2】格式明确引用素材
❌ 忽视音效:音效设计能大幅提升质量
✅ 加入音效:背景音乐 + 音效
❌ 缺少注意事项:结尾没有强调关键要素
✅ 添加注意事项:角色设定、氛围、动作节奏、细节还原
❌ 镜头数量太少:1-2个镜头无法展现完整故事
✅ 多用镜头没问题,每个镜头内容细化,但总量控制在30秒左右(6-8个镜头)
❌ 段落之间有多余空行:每个段落、镜头之间不需要空行
✅ 全部连续书写,不要有空行
反例:
剧情梗概
大法师安东尼达噜想要在小镇广场展示法术。
镜头1
阳光明媚的小镇广场...
正例:
剧情梗概
大法师安东尼达噜想要在小镇广场展示法术。
镜头1
阳光明媚的小镇广场...