video-text-storyboard

star 106

使用 AI 生成结构化文本分镜,作为视频生成的输入。用于用户需要一个视频的文本描述(分镜)的场景。用户说"帮我生成一个分镜"、"帮我写视频脚本"时触发。

T0UGH By T0UGH schedule Updated 5/17/2026

name: video-text-storyboard description: 使用 AI 生成结构化文本分镜,作为视频生成的输入。用于用户需要一个视频的文本描述(分镜)的场景。用户说"帮我生成一个分镜"、"帮我写视频脚本"时触发。

video-text-storyboard

注意:如果是首次使用,确保已安装 videoclaw:uvx videoclaw --help

触发场景

用户说以下话时触发:

  • "帮我生成一个分镜"
  • "帮我写视频脚本"
  • "帮我设计一下这个视频怎么拍"
  • "帮我做一个视频方案"

输入

通过 AskUserQuestion 依次追问获取:

  1. 视频类型(第一个问,多选一)

    • 故事类(情感短片、微电影)
    • 产品展示类(品牌广告、电商视频)
    • 角色动作类(武侠、舞蹈、格斗)
    • 风景旅拍类(自然风光、城市街拍)
  2. 视频主题:"这个视频想讲什么 / 展示什么?"

  3. 素材来源(二选一)

    • 我有图片,直接上传
    • 帮我用 AI 生成素材图(→ 先调用 t2i 生成素材图,再进入分镜生成)
  4. 类型专属追问(根据步骤1的结果分支)

    类型 追问内容
    故事类 角色外观描述 / 风格(搞笑/温馨/史诗感)
    产品展示类 产品名称和外观描述 / 品牌调性(高端/科技感/轻快时尚)
    角色动作类 角色外观描述 / 动作类型(武侠/舞蹈/格斗/特技)
    风景旅拍类 拍摄地点/场景描述 / 氛围(治愈系/史诗感/纪录片风格)
  5. 时长:"视频需要多长?15秒 / 30秒"

生成要点

加载 skill 后,利用上下文生成文本分镜。

模板选择

根据用户选择的视频类型,加载对应 references 文件:

加载对应文件后,使用其中的模板结构和示例生成分镜。

分镜生成要点

每个分镜包含:

  • 时间范围:精确的秒数(如 2-6秒)
  • 画面:场景 + 动作 + 台词 + 情绪,融合在一个字段中
  • 音效:此镜头的背景音效

合格示例

输入:做一个冰霜王登基的动画视频

输出

【素材介绍】:
【@图1】黄色圆滚滚小怪兽,无鼻设计,头顶小橘子
【@图2】冰封圣剑,剑身蓝光流转
【@图3】冰之王冠,由冰晶碎片拼接而成
【@图4】冰封王座,台阶和座椅有冰晶纹路
【@图5】极寒冰封王座大殿场景,浮空冰峰刺破阴云

【场景描写】:
极寒冰封之地,浮空冰峰刺破阴云,寒风呼啸,冰封大殿寂静威严

【背景音】:
史诗感 夹杂冰面细微碎裂声

【分镜】:
【特写圣剑】(0-4秒)
画面:特写【@图2】冰封圣剑,剑身蓝光流转,插在寒冰基座上
音效:冰裂声、低沉嗡鸣

【拔剑】(4-8秒)
画面:镜头后拉。【@图1】黄色小怪兽肉垫爪子紧紧握住【@图2】剑柄,用力向上拔剑
音效:拔剑声、冰裂声

【冰甲覆身】(8-12秒)
画面:全身镜头。【@图1】小怪兽用力拔出圣剑瞬间,无数冰晶碎片从四面八方飞聚而来,瞬间拼接成完整冰甲覆盖全身
音效:剑鸣、冰晶碰撞声

【戴上王冠】(12-16秒)
画面:【@图1】小怪兽抬手,无数冰晶冰片从空中飞聚而来,拼成【@图3】冰之王冠;小怪兽将王冠戴在头上
音效:冰晶拼接声

【登基定格】(16-20秒)
画面:全景。【@图1】小怪兽(穿戴冰甲)手持【@图2】圣剑,站在【@图4】冰封王座上,双眼亮起冰蓝光芒,远处【@图5】冰峰堡垒在背景中矗立
音效:余音回荡

【注意事项】:
- 角色设定:黄色小怪兽严格保持无鼻设计,头顶小橘子
- 氛围:全程冷色调,突出寒冰、冰晶质感,与角色暖黄色形成强烈视觉对比
- 动作节奏:每个镜头一个简单动作,拔剑 → 冰甲覆身 → 戴王冠 → 登基
- 细节还原:头顶小橘子、冰封圣剑蓝光、王冠冰晶拼接纹路等关键细节必须清晰呈现

保存

生成后保存到 <project>/videos/<video>/storyboard/text_storyboard.md

交互确认

用 AskUserQuestion 询问用户:

"这是生成的分镜,满意吗?"

选项:

  • 满意 → 继续下一步
  • 修改 → 询问具体哪里要改
  • 重新生成 → 不修改直接重试

常见错误

❌ 每个镜头安排太多内容:视频生成模型4秒绝对执行不了这么多东西,一个镜头只安排一个简单动作

✅ 每个镜头内容要精简,只描述一个动作或变化


❌ 素材引用混乱:不说明引用了什么

✅ 使用【@图1】【图2】格式明确引用素材


❌ 忽视音效:音效设计能大幅提升质量

✅ 加入音效:背景音乐 + 音效


❌ 缺少注意事项:结尾没有强调关键要素

✅ 添加注意事项:角色设定、氛围、动作节奏、细节还原

❌ 镜头数量太少:1-2个镜头无法展现完整故事

✅ 多用镜头没问题,每个镜头内容细化,但总量控制在30秒左右(6-8个镜头)


❌ 段落之间有多余空行:每个段落、镜头之间不需要空行

✅ 全部连续书写,不要有空行

反例

剧情梗概

大法师安东尼达噜想要在小镇广场展示法术。

镜头1
阳光明媚的小镇广场...

正例

剧情梗概
大法师安东尼达噜想要在小镇广场展示法术。
镜头1
阳光明媚的小镇广场...
Install via CLI
npx skills add https://github.com/T0UGH/videoclaw --skill video-text-storyboard
Repository Details
star Stars 106
call_split Forks 18
navigation Branch main
article Path SKILL.md
More from Creator