agentkit-multimedia-shopping - SKILL.md Agent Skill

name: agentkit-multimedia-shopping description: 基于ByteDance agentkit-samples多媒体用例的小省导购员数字人带货视频生成技能，整合多模态内容生成能力（图像、视频、音频），支持AI绘画、语音合成、视频生成，与小省导购员人设融合，9:16竖屏适配，直接对接带货视频生成流程 dependency: python: - Pillow>=10.0.0 - requests>=2.28.0 - numpy>=1.24.0 system: - echo "Skill已加载"

AgentKit多媒体小省导购员数字人带货

任务目标

本技能用于：基于ByteDance agentkit-samples多媒体用例，生成小省导购员数字人带货视频的多模态内容
能力包含：
- AI绘画生成（小省导购员角色形象、场景背景）
- 语音合成（导购员语音、背景音乐）
- 视频生成（多模态组合）
- 工作流编排（图像→音频→视频→成片）
触发条件：用户需要生成小省导购员数字人带货视频，使用agentkit-samples的多媒体能力

前置准备

依赖说明

本技能依赖以下Python包：

Pillow>=10.0.0
requests>=2.28.0
numpy>=1.24.0

环境准备

安装agentkit-samples（如需要）
准备API凭证（如涉及第三方服务调用）
准备小省导购员角色固定特征描述

前置知识

了解ByteDance agentkit-samples多媒体用例的基本功能
了解AI绘画、语音合成、视频生成的基本原理
了解9:16竖屏视频规格

操作步骤

标准流程

1. 角色形象生成

使用AI绘画生成小省导购员角色形象：

输入信息：

角色固定特征（脸型、发型、服饰、气质）
场景类型（商务场景）
情绪基调（热情、专业、亲切）

生成流程：

读取 references/character-profile.md，获取小省导购员角色固定特征
调用 scripts/generate_character.py 生成角色形象
裁剪为9:16比例，分辨率≥1080×1920
保存参考图（供InfiniteTalk使用）

输出：角色参考图（9:16竖屏）

2. 场景背景生成

使用AI绘画生成场景背景：

输入信息：

场景类型（商务会议室、书房、洽谈室、大厅、办公室）
情绪基调（冷调、暖调、中性）
光影描述（侧光、顺光、顶光、逆光）

生成流程：

读取场景模板，选择对应场景类型
调用 scripts/generate_scene.py 生成场景背景
裁剪为9:16比例，分辨率≥1080×1920
保存场景参考图

输出：场景参考图（9:16竖屏）

3. 语音合成

使用TTS生成导购员语音：

输入信息：

话术内容（带货文案）
语音类型（语速、语气）
情绪基调（热情、专业、亲切）

生成流程：

准备话术内容（符合小省导购员人设）
调用 scripts/generate_voice.py 合成语音
导出为16kHz单声道wav格式
保存语音文件（供InfiniteTalk使用）

输出：语音文件（16kHz单声道wav）

4. 背景音乐生成

使用音乐生成工具生成背景音乐：

输入信息：

情绪基调（热情、专业、紧迫、亲切）
音乐风格（管弦乐、钢琴、弦乐）
时长（5秒/幕）

生成流程：

根据情绪基调选择音乐风格
调用 scripts/generate_music.py 生成音乐
导出为16kHz单声道wav格式
保存音乐文件（供InfiniteTalk使用）

输出：音乐文件（16kHz单声道wav）

5. 视频生成

使用多模态组合生成视频：

输入信息：

角色参考图（9:16竖屏）
场景参考图（9:16竖屏）
语音文件（16kHz单声道wav）
音乐文件（16kHz单声道wav）
提示词（InfiniteTalk专用）

生成流程：

读取InfiniteTalk专用提示词（使用infinitetalk-shopping-avatar Skill生成）
调用 scripts/generate_video.py 生成视频
生成5幕视频（每幕5秒）
拼接完整视频（总时长25秒）

输出：完整视频（25秒，9:16竖屏）

可选分支

当仅需生成角色形象：执行步骤1
当仅需生成场景背景：执行步骤2
当仅需生成语音：执行步骤3
当仅需生成背景音乐：执行步骤4
当仅需生成视频：执行步骤1-5

资源索引

角色固定特征：见 references/character-profile.md（何时读取：生成角色形象时）
场景模板：见 references/scene-templates.md（何时读取：生成场景背景时）
工具使用说明：见 references/tool-usage-guide.md（何时读取：使用工具时）
示例输出：见 assets/examples/sample-output.md（何时读取：参考示例输出）

注意事项

角色一致性：所有生成的角色形象必须严格遵循角色固定特征
分辨率匹配：所有图像必须为9:16竖屏，分辨率≥1080×1920
音频格式：所有音频必须为16kHz单声道wav格式
情绪适配：语音和音乐必须与场景情绪匹配
工作流顺序：严格按照图像→音频→视频的顺序生成
与InfiniteTalk协同：使用infinitetalk-shopping-avatar Skill生成提示词

使用示例

示例1：生成完整带货视频

功能说明：生成小省导购员数字人带货视频的完整流程

执行方式：

生成角色形象（调用generate_character.py）
生成场景背景（调用generate_scene.py）
合成导购员语音（调用generate_voice.py）
生成背景音乐（调用generate_music.py）
生成视频（调用generate_video.py，结合InfiniteTalk提示词）

关键参数：

角色固定特征：严格遵循character-profile.md
场景类型：商务场景
情绪基调：热情专业
分辨率：1080×1920（9:16竖屏）
音频格式：16kHz单声道wav

输出：完整带货视频（25秒，9:16竖屏）

示例2：仅生成角色参考图

功能说明：仅生成小省导购员角色参考图

执行方式：调用generate_character.py

关键参数：

角色固定特征：严格遵循character-profile.md
情绪基调：热情专业
分辨率：1080×1920（9:16竖屏）

输出：角色参考图（9:16竖屏）

工作流总结

角色固定特征描述
    ↓
AI绘画生成（角色形象+场景背景）
    ↓
语音合成（导购员语音+背景音乐）
    ↓
InfiniteTalk提示词生成（使用infinitetalk-shopping-avatar Skill）
    ↓
多模态视频生成（图像+音频+提示词）
    ↓
完整带货视频（25秒，9:16竖屏）

与InfiniteTalk的协同

本技能与infinitetalk-shopping-avatar Skill协同工作：

本技能：生成多模态内容（图像、音频）
infinitetalk-shopping-avatar Skill：生成InfiniteTalk专用提示词
InfiniteTalk：使用多模态内容和提示词生成视频

协同流程：

本技能生成角色参考图 → infinitetalk-shopping-avatar生成提示词 → InfiniteTalk生成视频
本技能生成语音文件 → chinese-wav2vec2-base编码 → InfiniteTalk使用
本技能生成音乐文件 → chinese-wav2vec2-base编码 → InfiniteTalk使用