voxcpm - SKILL.md Agent Skill

name: voxcpm description: "VoxCPM2: TTS tokenizer-free 2B params, 30 idiomas, Voice Design, Voice Cloning, 48kHz, streaming real-time. Apache-2.0. 25.8k⭐." url: https://github.com/OpenBMB/VoxCPM category: media fecha: 2026-06-05

VoxCPM2 — TTS Tokenizer-Free de Última Generación

URL

Categoría

media (text-to-speech / generación de voz)

¿Qué hace?

VoxCPM2 es un sistema tokenizer-free de Text-to-Speech que genera representaciones de speech continuas vía arquitectura diffusion autoregressive end-to-end, sin pasar por tokenización discreta. Esto produce audio extremadamente natural y expresivo.

Especificaciones:

2B parámetros entrenado con 2+ millones de horas de speech multilingüe
30 idiomas soportados (incluye 8 dialectos chinos: 四川话, 粤语, 吴语, etc.)
Voice Design: crear voz nueva desde descripción natural (género, edad, tono, emoción, ritmo...) sin audio de referencia
Controllable Cloning: clonar voz de referencia corta con guía de estilo
Ultimate Cloning: reproducir cada matiz vocal con audio + transcript de referencia
48kHz studio-quality: super-resolución integrada, no necesita upsampler externo
Streaming real-time: RTF ~0.3 en RTX 4090, ~0.13 con Nano-vLLM
Apache-2.0: open-source y comercialmente usable

Casos de uso

TTS natural: generación de voz ultra-realista para cualquier aplicación
Voice cloning: clonar voces con control emocional y de estilo
Voice design: crear voces nuevas desde descripción textual
Multi-idioma: una sola modelo para 30 idiomas + dialectos
Producción: deployment con vLLM-Omni para API OpenAI-compatible

Snippets útiles

Instalación básica

pip install voxcpm

TTS básico

from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
audio = model.generate("Hola, ¿cómo estás?")
# audio: numpy array a 48kHz

Voice Design (crear voz desde texto)

audio = model.generate(
    text="Esta es una voz diseñada desde cero",
    voice_design="male, young, warm tone, slow pace"
)

Voice Cloning con referencia

audio = model.generate(
    text="Texto a sintetizar",
    reference_audio="referencia.wav",
    reference_text="transcripción de la referencia"
)

Deployment con Nano-vLLM (ultra-rápido)

# Aceleración con Nano-vLLM
pip install nanovllm-voxcpm
# RTF ~0.13 en RTX 4090

Deployment con vLLM-Omni (API OpenAI-compatible)

# Serving con PagedAttention
pip install vllm-omni
# API compatible con OpenAI client

Cómo integrarlo

Python API: pip install voxcpm y usar directamente
Production: Nano-vLLM o vLLM-Omni para serving escalable
CLI: herramienta de línea de comandos incluida
Web Demo: demo web auto-alojable incluida
Fine-tuning: SFT y LoRA disponibles

Pitfalls

Requiere Python ≥ 3.10, < 3.13 y PyTorch ≥ 2.5.0 con CUDA ≥ 12.0
GPU recomendada para inferencia rápida (no obligatoria pero muy recomendada)
Voice Design puede producir resultados inconsistentes con descripciones muy específicas
El modelo base es de 2B params — requiere ~4-8GB VRAM mínimo
Los dialectos chinos pueden tener calidad variable respecto al mandarín estándar

Fecha de descubrimiento

2026-06-05 (trending semanal + 25.8k⭐)