video-creation-suite - SKILL.md Agent Skill

name: video-creation-suite description: 完整的视频创作套件，支持原创创作、视频二创、视频分析三种模式，集成Coze Bot API、Edge-TTS、Suno API，涵盖多智能体协同、素材生成、视频合成全流程 dependency: python: - opencv-python>=4.8.0 - pillow>=10.0.0 - moviepy>=1.0.3 - numpy>=1.24.0 - requests>=2.28.0 - edge-tts>=6.1.0 system: - pip install -r requirements.txt 2>/dev/null || true

视频创作套件

任务目标

本 Skill 用于: 提供完整的视频创作能力，支持三种创作模式
能力包含:
- 模式一: 原创创作: 11个智能体协同原创视频创作（《三体》IP创作、通用原创）
- 模式二: 视频二创: 从原视频反推到新视频合成的完整二创流程
- 模式三: 视频分析: 视频抽帧、视觉分析、内容提取
- 技术能力: 配音生成、音效生成、背景音乐生成、视频合成
触发条件: 用户需要进行视频创作（原创/二创/分析）

三种创作模式

模式一: 原创创作

适用场景: 从零开始创作原创视频
子模式:
- 《三体》IP创作（专门针对《三体》IP）
- 通用多智能体协同（11个智能体分工）
流程: 选题策划 → 视觉设计 → 素材生成 → 视频合成 → 质量检测

模式二: 视频二创

适用场景: 基于现有视频进行二次创作
流程: 视频反推分析 → 素材生成 → 视频合成 → 文件下载
能力: 视频抽帧、视觉分析、图片生成、配音、音效、音乐、合成

模式三: 视频分析

适用场景: 分析视频内容、提取分镜参考、生成创作提示词
流程: 视频抽帧 → 视觉分析 → 结构化输出
能力: 抽帧、视觉模型调用、提示词生成

前置准备

环境依赖

opencv-python>=4.8.0
pillow>=10.0.0
moviepy>=1.0.3
numpy>=1.24.0
requests>=2.28.0
edge-tts>=6.1.0

API 配置（可选）

Coze Bot API: 视觉分析
- 环境变量: COZE_BOT_ID, COZE_API_KEY
Edge-TTS: 配音生成
- 安装: pip install edge-tts
Suno API: 背景音乐生成
- 环境变量: SUNO_API_KEY
- 三种模式: 开发者、用户、占位

操作步骤

模式选择

智能体根据用户输入自动选择模式：

判断原创创作模式

用户提到"创作《三体》视频"、"三体IP创作" → 《三体》IP创作
用户提到"多智能体协同"、"原创视频"、"从零创作" → 通用多智能体协同

判断视频二创模式

用户提到"二创视频"、"反推视频"、"视频重制"、"根据参考视频创作" → 视频二创

判断视频分析模式

用户提到"分析视频"、"提取分镜"、"生成提示词" → 视频分析

模式一: 原创创作

子模式1: 《三体》IP创作

第一阶段: 前期筹备

原著考据与设定提取
- 阅读 references/three-body-settings.md
- 提取《三体2》威慑纪元核心设定
- 输出: 时间线锚点表、人物行为合规清单
剧情架构设计
- 搭建"三线并行"叙事框架
- 设计3个核心冲突点和1个情感高潮
- 输出: 三线平行叙事分镜大纲、情绪曲线图
台词创作
- 基于人物性格撰写台词
- 输出: 角色对白脚本（含语气/停顿标记）

第二阶段: 视觉制作

视觉风格规范制定
- 阅读 references/visual-style-guide.md
- 输出: 视觉风格指南、场景/人物设计规范
场景设计
- 设计3个核心场景
- 输出: 场景概念图提示词、场景要素清单
人物一致性建模
- 罗辑形象锚定
- 输出: 罗辑标准形象锚定图集、人物状态对照表
分镜脚本细化
- 将剧情大纲转化为专业分镜
- 输出: 电影分镜脚本（含时间码）、渲染元数据

第三阶段: 音频与剪辑

素材生成
- 配音生成: 调用 scripts/voice_generator.py 生成角色配音
  - 参数: --input <旁白数据JSON> --output ./output/audio/voice
- 音效生成: 调用 scripts/sound_generator.py --type sound 生成音效
  - 参数: --input <音效配置JSON> --output ./output/audio/sound_effects
- 背景音乐生成: 调用 scripts/sound_generator.py --type music 生成背景音乐
  - 参数: --input <音乐配置JSON> --output ./output/audio/background_music
- 视频合成: 调用 scripts/video_compositor.py 合成最终视频
  - 参数: --images <图片目录> --audio <音频目录> --subtitles <字幕文件> --output <输出路径>
质量管控
- 调用 scripts/quality_checker.py 检测技术指标
- 原著合规检测
- B站适配优化

子模式2: 通用多智能体协同

11个智能体分工

文案创作
故事策划
脚本创作
分镜导演
分镜画师
字幕师
配音师
音效师
视频工程师
质检
数据反馈

5阶段协同流程

需求承接
内容创作
生图创作
音频字幕
视频合成
全流程质检
数据迭代

模式二: 视频二创

第一阶段: 视频反推分析

提取视频关键帧
- 调用 scripts/video_frame_extractor.py 提取关键帧
- 参数: --input <原视频路径> --output ./output/frames --interval 2
- 输出: 序列图片到 ./output/frames/
视觉分析
- 调用 scripts/coze_bot_client.py 分析关键帧
- 智能体描述分析需求: "分析这些视频帧，提取:画面风格、色调特征、构图方式、节奏模式"
- 输出: 分析结果保存到 ./output/analysis.json
生成创作方案
- 智能体根据分析结果，生成二创方案
- 输出: 新视频主题、画面风格调整、脚本大纲、素材需求清单

第二阶段: 素材生成

生成图片素材
- 智能体根据脚本生成关键帧提示词
- 调用 scripts/image_generator.py 生成图片
- 输出: 图片到 ./output/images/
生成配音
- 智能体作为配音师，创作旁白脚本
- 调用 scripts/voice_generator.py 合成配音（基于Edge-TTS）
- 参数: --input <旁白脚本JSON> --output ./output/voice
- 输出: 配音文件到 ./output/voice/
生成音效和背景音乐
- 调用 scripts/sound_generator.py --type both 生成音效和背景音乐
- 参数: --input <完整配置JSON> --output ./output/audio
- 输出: 音效到 ./output/audio/sound_effects/, 背景音乐到 ./output/audio/background_music/
生成字幕
- 智能体创作字幕内容
- 调用 scripts/subtitle_generator.py 生成字幕文件
- 参数: --input <字幕数据JSON> --output ./output/subtitles
- 输出: SRT字幕到 ./output/subtitles/

第三阶段: 视频合成

合成最终视频
- 调用 scripts/video_compositor.py 合成视频
- 参数: --images ./output/images --audio ./output/audio --voice ./output/voice --subtitles ./output/subtitles --output ./output/final.mp4
- 输出: 最终视频 ./output/final.mp4
文件下载
- 调用 scripts/file_server.py 启动HTTP服务器
- 参数: --port 8080 --directory ./output
- 输出: 下载链接 http://localhost:8080/final.mp4

模式三: 视频分析

分析流程

视频抽帧
- 调用 scripts/video_frame_extractor.py 提取关键帧
- 参数: --input <视频路径> --output <输出目录> --interval <间隔秒数>
视觉分析
- 调用 scripts/coze_bot_client.py 分析每帧内容
- 参数: --message "<分析提示>" --image_path <图片路径>
- 输出: 结构化分析结果（JSON格式）
批量处理
- 自动遍历所有关键帧
- 批量调用视觉模型
- 汇总分析结果

资源索引

技术脚本

视频处理: scripts/video_frame_extractor.py - 提取关键帧
视觉分析: scripts/coze_bot_client.py - 调用Coze Bot API
图像生成: scripts/image_generator.py - 生成图片素材
配音生成: scripts/voice_generator.py - 生成配音（Edge-TTS）
音效和音乐: scripts/sound_generator.py - 生成音效和背景音乐（Suno API）
字幕生成: scripts/subtitle_generator.py - 生成字幕
视频合成: scripts/video_compositor.py - 合成最终视频
文件服务: scripts/file_server.py - HTTP下载服务器
质量检测: scripts/quality_checker.py - 检测技术指标
错误处理: scripts/error_handler.py - 重试和错误日志

参考文档

《三体》IP创作:
- references/three-body-settings.md - 《三体》原著设定与威慑纪元规则
- references/visual-style-guide.md - 视觉风格规范与设计原则
- references/storyboard-template.md - 分镜脚本标准模板
- references/character-profiles.md - 人物档案与行为准则
视频二创:
- references/recreation-guide.md - 视频二创方法论
- references/prompt-templates.md - 分析提示词示例
- references/suno-api-guide.md - Suno API使用指南

资源文件

assets/scene-examples/ - 场景设计提示词示例
assets/character-reference/ - 人物形象描述参考

注意事项

模式自动选择: 智能体根据用户输入自动选择合适的创作模式
脚本共享: 所有模式共享同一套技术脚本，避免重复
API配置: 所有API通过环境变量配置，支持多种模式
错误处理: 所有脚本都包含错误处理和重试机制
容错降级: API不可用时自动降级为占位实现

使用示例

示例1: 《三体》IP创作

用户: "帮我创作一个《三体》威慑纪元的8分钟视频"

智能体执行:
1. 自动选择模式一: 《三体》IP创作
2. 按照前期筹备 → 视觉制作 → 音频与剪辑 → 质量管控流程
3. 调用相应脚本生成配音、音效、背景音乐
4. 合成最终视频

示例2: 视频二创

用户: "这个视频帮我二创一下，换个风格"

智能体执行:
1. 自动选择模式二: 视频二创
2. 提取原视频关键帧
3. 视觉分析，提取风格特征
4. 生成新素材（图片、配音、音效、音乐）
5. 合成新视频

示例3: 视频分析

用户: "分析这个视频，提取分镜和提示词"

智能体执行:
1. 自动选择模式三: 视频分析
2. 抽取视频关键帧
3. 分析每帧内容
4. 输出结构化分析结果

API 配置说明

Suno API 三种模式

开发者模式: 技能预置 API Key，开箱即用
用户模式: 用户配置自己的 API Key
占位模式: 自动降级，完全免费

Edge-TTS 音色列表

中文: zh-CN-XiaoxiaoNeural(活泼)、zh-CN-XiaomengNeural(温柔)、zh-CN-YunyangNeural(沉稳)
英文: en-US-JennyNeural(美式)、en-GB-SoniaNeural(英式)

Coze Bot API

用于视觉分析
环境变量: COZE_BOT_ID, COZE_API_KEY