name: voxcpm description: "VoxCPM2: TTS tokenizer-free 2B params, 30 idiomas, Voice Design, Voice Cloning, 48kHz, streaming real-time. Apache-2.0. 25.8k⭐." url: https://github.com/OpenBMB/VoxCPM category: media fecha: 2026-06-05
VoxCPM2 — TTS Tokenizer-Free de Última Generación
URL
https://github.com/OpenBMB/VoxCPM
Categoría
media (text-to-speech / generación de voz)
¿Qué hace?
VoxCPM2 es un sistema tokenizer-free de Text-to-Speech que genera representaciones de speech continuas vía arquitectura diffusion autoregressive end-to-end, sin pasar por tokenización discreta. Esto produce audio extremadamente natural y expresivo.
Especificaciones:
- 2B parámetros entrenado con 2+ millones de horas de speech multilingüe
- 30 idiomas soportados (incluye 8 dialectos chinos: 四川话, 粤语, 吴语, etc.)
- Voice Design: crear voz nueva desde descripción natural (género, edad, tono, emoción, ritmo...) sin audio de referencia
- Controllable Cloning: clonar voz de referencia corta con guía de estilo
- Ultimate Cloning: reproducir cada matiz vocal con audio + transcript de referencia
- 48kHz studio-quality: super-resolución integrada, no necesita upsampler externo
- Streaming real-time: RTF ~0.3 en RTX 4090, ~0.13 con Nano-vLLM
- Apache-2.0: open-source y comercialmente usable
Casos de uso
- TTS natural: generación de voz ultra-realista para cualquier aplicación
- Voice cloning: clonar voces con control emocional y de estilo
- Voice design: crear voces nuevas desde descripción textual
- Multi-idioma: una sola modelo para 30 idiomas + dialectos
- Producción: deployment con vLLM-Omni para API OpenAI-compatible
Snippets útiles
Instalación básica
pip install voxcpm
TTS básico
from voxcpm import VoxCPM
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
audio = model.generate("Hola, ¿cómo estás?")
# audio: numpy array a 48kHz
Voice Design (crear voz desde texto)
audio = model.generate(
text="Esta es una voz diseñada desde cero",
voice_design="male, young, warm tone, slow pace"
)
Voice Cloning con referencia
audio = model.generate(
text="Texto a sintetizar",
reference_audio="referencia.wav",
reference_text="transcripción de la referencia"
)
Deployment con Nano-vLLM (ultra-rápido)
# Aceleración con Nano-vLLM
pip install nanovllm-voxcpm
# RTF ~0.13 en RTX 4090
Deployment con vLLM-Omni (API OpenAI-compatible)
# Serving con PagedAttention
pip install vllm-omni
# API compatible con OpenAI client
Cómo integrarlo
- Python API:
pip install voxcpmy usar directamente - Production: Nano-vLLM o vLLM-Omni para serving escalable
- CLI: herramienta de línea de comandos incluida
- Web Demo: demo web auto-alojable incluida
- Fine-tuning: SFT y LoRA disponibles
Pitfalls
- Requiere Python ≥ 3.10, < 3.13 y PyTorch ≥ 2.5.0 con CUDA ≥ 12.0
- GPU recomendada para inferencia rápida (no obligatoria pero muy recomendada)
- Voice Design puede producir resultados inconsistentes con descripciones muy específicas
- El modelo base es de 2B params — requiere ~4-8GB VRAM mínimo
- Los dialectos chinos pueden tener calidad variable respecto al mandarín estándar
Fecha de descubrimiento
2026-06-05 (trending semanal + 25.8k⭐)