voxcpm - SKILL.md Agent Skill

name: voxcpm description: "VoxCPM2 — Sistema TTS tokenizer-free de 2B parámetros, 30 idiomas, Voice Design, Voice Cloning y audio 48kHz studio-quality" url: https://github.com/OpenBMB/VoxCPM category: audio fecha: 2026-06-02

VoxCPM2 🎤

VoxCPM es un sistema de Text-to-Speech (TTS) tokenizer-free que genera representaciones de habla continuas directamente mediante una arquitectura diffusion autoregressive end-to-end, evitando la tokenización discreta para lograr una síntesis altamente natural y expresiva.

VoxCPM2 es la última versión mayor: modelo de 2B parámetros entrenado con más de 2 millones de horas de datos multilingües, con soporte para 30 idiomas, Voice Design, Voice Cloning controlado y salida de audio 48kHz calidad de estudio. Construido sobre backbone MiniCPM-4.

¿Qué hace?

Características principales

TTS Tokenizer-Free: Genera habla continua sin discretización intermedia → mayor naturalidad
30 idiomas multilingües: Entrada de texto en cualquier idioma sin necesidad de tags de idioma
Voice Design: Crea una voz completamente nueva desde una descripción en lenguaje natural (género, edad, tono, emoción, ritmo...) sin audio de referencia
Voice Cloning controlado: Clona cualquier voz desde un clip corto, con guía de estilo para controlar emoción, tono y ritmo
Audio 48kHz: Calidad de estudio con alta fidelidad
2B parámetros: Equilibrio entre calidad y eficiencia computacional

Arquitectura

Backbone: MiniCPM-4 (modelo de lenguaje multimodal de OpenBMB)
Diffusion autoregressive end-to-end
Sin tokenización discreta intermedia

Casos de uso

Voz para agentes IA: Reemplazar TTS convencional con voz más natural y expresiva
Clonación de voz: Clonar voces para narración, audiobooks, contenido personalizado
Doblaje multilingüe: Generar speech en 30 idiomas con misma voz clonada
Diseño de personajes: Crear voces únicas para personajes de juegos, apps, asistentes
Accesibilidad: Generar speech natural para personas con dificultades de lectura

Snippets útiles

Instalación básica

# Clonar
git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM

# Instalar dependencias
pip install -r requirements.txt
# o con uv
uv sync

Inferencia básica

from src.voxcpm import VoxCPM2

# Cargar modelo
model = VoxCPM2.from_pretrained("openbmb/VoxCPM2")

# Generar speech desde texto
audio = model.synthesize(
    text="Hola, soy un asistente de voz con IA.",
    language="es"
)
# audio es un tensor de audio 48kHz

Voice Design (crear voz desde descripción)

# Crear una voz nueva desde descripción natural
audio = model.synthesize(
    text="Texto a sintetizar",
    voice_design="una voz femenina joven, tono alegre, ritmo rápido",
    language="es"
)

Voice Cloning

# Clonar desde audio de referencia
audio = model.synthesize(
    text="Texto a sintetizar",
    reference_audio="ruta/al/audio/referencia.wav",
    style="tono profesional, ritmo pausado",
    language="es"
)

Web UI Demo

# Ejecutar demo web
python app.py
# Acceder a http://localhost:7860

Fine-tuning con LoRA

# Fine-tuning con LoRA via web UI
python lora_ft_webui.py
# Permite entrenar el modelo con datos propios

Cómo integrarlo

Con sistema de voz Mastermind (Voicebox/VibeVoice)

VoxCPM2 puede ser un motor TTS alternativo:
- Voice Design: crear voces únicas para diferentes agentes
- Voice Cloning: clonar voces reales para personalización
- Multilingüe: soporte nativo 30 idiomas sin traducción
- Calidad: 48kHz studio-quality superior a TTS convencional

Como microservicio

1. Deploy en servidor con GPU (requiere ~8GB VRAM mínimo)
2. Exponer API REST para inferencia
3. Integrar con pipeline de TTS existente
4. Cache de resultados para textos frecuentes

Pipeline de generación de voz

Texto → VoxCPM2 (con voice design/cloning) → Audio 48kHz
→ Post-procesamiento (normalización, efectos) → Output final

Pitfalls

Requiere GPU: El modelo de 2B parámetros necesita GPU con al menos 8GB VRAM para inferencia
Tamaño del modelo: ~4-8GB de pesos descargados de HuggingFace
Latencia: Inferencia más lenta que TTS convencional (diffusion autoregressive)
Dependencias PyTorch: Requiere PyTorch con soporte CUDA para GPU
Idiomas: Aunque soporta 30 idiomas, la calidad puede variar por idioma
Fine-tuning: Requiere datos de audio de alta calidad y cantidad suficiente

Arquitectura

src/
├── voxcpm/         — Modelo principal VoxCPM2
├── diffusion/      — Componentes de diffusion model
├── autoregressive/ — Modelo autoregressive
├── vocoder/        — Vocoder para audio output
├── voice_design/   — Módulo de voice design
├── voice_clone/    — Módulo de voice cloning
└── utils/          — Utilidades

conf/               — Configuraciones
examples/           — Ejemplos de uso
scripts/            — Scripts de entrenamiento/inferencia
tests/              — Tests

Fecha de descubrimiento: 2026-06-02

Trending: #1 diario (888 estrellas hoy), 24,738 estrellas totales Creado: 2025-09-16 (relativamente nuevo, ~9 meses) Topics: audio, deeplearning, minicpm, multilingual, python, pytorch, speech, speech-synthesis, tts, voice-cloning, voice-design