name: volcengine-tts description: 使用火山引擎语音合成API将文字转换为语音,支持多种音色和语速调节。 allowed-tools: Bash(python:*), Read, Write
火山引擎 TTS 文字转语音
通过火山引擎语音合成 API 将文字转换为高质量语音音频。
快速开始
环境配置
设置火山引擎 AppId 和 Access Token:
export VOLC_TTS_APPID="your_app_id"
export VOLC_TTS_ACCESS_TOKEN="your_access_token"
或创建 .env 文件(放在 skill 根目录):
VOLC_TTS_APPID=your_app_id
VOLC_TTS_ACCESS_TOKEN=your_access_token
获取凭证
- 访问 https://console.volcengine.com/speech/app
- 创建语音技术应用
- 开通"语音合成"服务
- 获取 AppId 和 Access Token
基础使用
cd .claude/skills/volcengine-tts
python scripts/tts.py "你好,欢迎使用火山引擎语音合成服务"
指定音色
# 使用通用女声(默认)
python scripts/tts.py "今天天气真好" --voice BV001_streaming
# 使用阳光男声
python scripts/tts.py "今天天气真好" --voice BV056_streaming
# 使用音色别名
python scripts/tts.py "今天天气真好" --voice yangguang
调整语速和音量
# 语速1.2倍,音量1.5倍
python scripts/tts.py "这是一段测试文字" --speed 1.2 --volume 1.5
工作流建议
当用户请求文字转语音时,遵循以下流程:
Step 1: 理解需求
与用户确认:
- 要转换的文字内容
- 音色偏好(男声/女声/特定风格)
- 语速和音量要求
- 输出格式(mp3/wav/pcm)
Step 2: 选择音色
根据用户需求选择合适的音色(通用版):
- 通用女声:
BV001_streaming或--voice female - 通用男声:
BV002_streaming或--voice male - 阳光男声:
BV056_streaming或--voice yangguang - 温柔小哥:
BV033_streaming或--voice wenrou - 儒雅青年:
BV102_streaming或--voice ruya
Step 3: 调用脚本
cd .claude/skills/volcengine-tts
python scripts/tts.py "文字内容" --voice 音色ID --output output.mp3
Step 4: 返回结果
脚本会生成音频文件并输出文件路径,将结果返回给用户。
命令行参数
| 参数 | 说明 | 默认值 |
|---|---|---|
| text | 要转换的文字 | 必填 |
| --voice | 音色ID或别名 | BV001_streaming |
| --speed | 语速(0.5-2.0) | 1.0 |
| --volume | 音量(0.5-2.0) | 1.0 |
| --pitch | 音调(0.5-2.0) | 1.0 |
| --format | 输出格式: mp3/wav/pcm | mp3 |
| --output | 输出文件路径 | tts_[timestamp].mp3 |
| --encoding | 文本编码 | utf-8 |
常用音色列表
通用版音色(推荐)
| 音色ID | 别名 | 说明 |
|---|---|---|
BV001_streaming |
female | 通用女声(默认) |
BV002_streaming |
male | 通用男声 |
BV056_streaming |
yangguang | 阳光男声 |
BV033_streaming |
wenrou | 温柔小哥 |
BV102_streaming |
ruya | 儒雅青年 |
依赖安装
cd .claude/skills/volcengine-tts
pip install -r scripts/requirements.txt
在 Claude Code 中使用
在 Claude Code 中直接说:
把这段文字转成语音:今天是个好日子
用男声朗读这段文字
帮我生成一段语音,内容是...
Claude 会自动调用该 skill 为你生成语音。
技术细节
- API文档: https://www.volcengine.com/docs/6561/79820
- API端点:
https://openspeech.bytedance.com/api/v1/tts - 协议: HTTP POST
- 采样率: 24000Hz
- 认证: Bearer Token (Bearer;{token})
- 返回格式: JSON (音频为 Base64 编码)
注意事项
- 单次请求文本长度建议不超过500字
- 长文本会自动分段处理
- 生成的音频文件保存在指定目录
- 请合理使用API调用次数
故障排查
如果遇到问题:
- 确认 AppId 和 Access Token 已正确设置
- 检查网络连接是否正常
- 确认账号已开通语音合成服务
- 查看错误信息中的详细提示