opc

star 667

多引擎 AI 创作工具链。TTS 语音合成(edge-tts / Qwen3-TTS)、ASR 语音识别与卡拉OK字幕、ComfyUI 图片生成(ERNIE/Qwen/Z-Image + PromptKG 知识图谱)、视频剪辑(Cut)。使用场景:(1) 文本转语音播放,(2) 音频转录生成 SRT/ASS 字幕,(3) AI 图片生成与风格探索,(4) Prompt 知识图谱查询与模板发现,(5) 字幕级视频剪辑。触发词:语音、TTS、ASR、字幕、图片生成、prompt、知识图谱、KG、视频剪辑、cut

xiaotianfotos By xiaotianfotos schedule Updated 4/20/2026

name: opc description: "多引擎 AI 创作工具链。TTS 语音合成(edge-tts / Qwen3-TTS)、ASR 语音识别与卡拉OK字幕、ComfyUI 图片生成(ERNIE/Qwen/Z-Image + PromptKG 知识图谱)、视频剪辑(Cut)。使用场景:(1) 文本转语音播放,(2) 音频转录生成 SRT/ASS 字幕,(3) AI 图片生成与风格探索,(4) Prompt 知识图谱查询与模板发现,(5) 字幕级视频剪辑。触发词:语音、TTS、ASR、字幕、图片生成、prompt、知识图谱、KG、视频剪辑、cut"

opc - AI 创作工具链

TTS + ASR + AI 图片生成 + 视频剪辑。

环境安装

curl -LsSf https://astral.sh/uv/install.sh | sh
cd ~/.claude/skills/opc-cli && uv sync

跨平台:Linux 用 CUDA,macOS 用 MLX,命令一致。

模型下载源:

opc config --set-model-source modelscope   # 默认
opc config --set-model-source huggingface  # 备选
opc config --set-model-cache-dir ~/models

快速开始

opc discover --set-default          # 发现播放设备
opc tts "你好" -e edge-tts          # 生成语音
opc say "你好"                       # 生成并播放
opc asr audio.mp3 --format srt      # 生成字幕
opc image -w ernie-turbo -p "a cat"  # AI 生图
opc image kg skeleton subject:food style:photography  # KG prompt 规划

所有命令通过 uv run --project ~/.claude/skills/opc-cli python -m scripts.opc 执行。opc 是上述命令的简写别名。

TTS 命令

opc tts <text> — 生成语音文件

opc tts "你好" -e edge-tts                           # edge-tts
opc tts "你好" -e edge-tts --rate +20% --pitch +5Hz  # 带语速/音调
opc tts "你好" -e qwen --speaker Vivian              # qwen 内置音色
opc tts "你好" -e qwen --instruct "用愤怒的语气说"    # 情绪指令
opc tts "你好" -e qwen --mode voice_design --instruct "温柔的女声"  # 声音设计
opc tts "你好" -e qwen --mode voice_clone --ref-audio ref.wav --ref-text "参考"  # 克隆

参数: -e 引擎(edge-tts|qwen)、-v 音色、-l 语言、-o 输出路径、--stdin 从 stdin 读 edge-tts: --rate--pitch--volume qwen: -m 模式(custom_voice|voice_design|voice_clone)、-s 音色、-i 情绪指令、--ref-audio--ref-text

opc say <text> — 生成并播放

参数同 tts,额外 -d 指定播放设备。

opc voices / opc discover

opc voices -e edge-tts   # 322 个音色
opc voices -e qwen       # 9 个内置音色
opc discover --set-default

ASR Pipeline

4 阶段 Pipeline:ASR + Forced Alignment → Sentence Breaking → CSV Fix → Render

opc asr audio.mp3                    # 转录到 stdout
opc asr audio.mp3 --format srt       # 生成 SRT + ASS
opc asr audio.mp3 --format json -o result.json
opc asr audio.mp3 --format srt --fix-dir ./fixes             # CSV 修正
opc asr audio.mp3 --format srt --resume-from break           # 从断句阶段恢复

参数: --format(text|json|srt|ass)、--language--model-size(1.7B|0.6B)、--style--fix-dir--resume-from(asr|break|fix|render)

断句规则

两遍扫描:Pass 1 按句号分段,Pass 2 按逗号断行。没有标点绝对不断行。 超长行由 Check 标记,用 opc asr-split 手动拆分:

opc asr-split audio.lines.json --line 10 --after "理解,"
opc asr audio.mp3 --format srt --resume-from render

CSV 修正格式

--fix-dirfix_1.csv, fix_2.csv...,格式:原文本,新文本(新文本留空=删除行)。# 开头为注释。

Image 命令

AI 图片生成 + Prompt 知识图谱 + 模板系统。详见 references/image.md

核心流程:

opc image kg skeleton subject:food style:photography  # KG 规划
opc image -w ernie-full -p "..."                       # 生成
opc image analyze output.png --describe                # 分析

Cut 命令

基于 ASR 字词级时间戳的视频剪辑。详见 references/cut.md

opc cut --video video.mp4        # 启动剪辑 Web 界面

Dashboard

技能管理面板。详见 references/dashboard.md

配置

配置文件:~/.opc_cli/opc/config.json

默认值 说明
tts_engine edge-tts 默认 TTS 引擎
edge_voice zh-CN-XiaoxiaoNeural edge-tts 音色
qwen_speaker Vivian qwen 音色
default_device 播放设备
asr_model_size 1.7B ASR 模型
workspace_dir ~/opc-workspace 工作目录
comfyui_host 127.0.0.1 ComfyUI 地址
comfyui_port 8188 ComfyUI 端口
dashboard_host 0.0.0.0 Dashboard 监听地址
dashboard_port 12080 Dashboard 端口
model_source modelscope 模型下载源
opc config --show
opc config --set-engine qwen
opc config --set-comfyui-host 192.168.1.100
Install via CLI
npx skills add https://github.com/xiaotianfotos/OPC --skill opc
Repository Details
star Stars 667
call_split Forks 124
navigation Branch main
article Path SKILL.md
More from Creator
xiaotianfotos
xiaotianfotos Explore all skills →