name: voxcpm description: "VoxCPM2 — Sistema TTS tokenizer-free de 2B parámetros, 30 idiomas, Voice Design, Voice Cloning y audio 48kHz studio-quality" url: https://github.com/OpenBMB/VoxCPM category: audio fecha: 2026-06-02
VoxCPM2 🎤
VoxCPM es un sistema de Text-to-Speech (TTS) tokenizer-free que genera representaciones de habla continuas directamente mediante una arquitectura diffusion autoregressive end-to-end, evitando la tokenización discreta para lograr una síntesis altamente natural y expresiva.
VoxCPM2 es la última versión mayor: modelo de 2B parámetros entrenado con más de 2 millones de horas de datos multilingües, con soporte para 30 idiomas, Voice Design, Voice Cloning controlado y salida de audio 48kHz calidad de estudio. Construido sobre backbone MiniCPM-4.
¿Qué hace?
Características principales
- TTS Tokenizer-Free: Genera habla continua sin discretización intermedia → mayor naturalidad
- 30 idiomas multilingües: Entrada de texto en cualquier idioma sin necesidad de tags de idioma
- Voice Design: Crea una voz completamente nueva desde una descripción en lenguaje natural (género, edad, tono, emoción, ritmo...) sin audio de referencia
- Voice Cloning controlado: Clona cualquier voz desde un clip corto, con guía de estilo para controlar emoción, tono y ritmo
- Audio 48kHz: Calidad de estudio con alta fidelidad
- 2B parámetros: Equilibrio entre calidad y eficiencia computacional
Arquitectura
- Backbone: MiniCPM-4 (modelo de lenguaje multimodal de OpenBMB)
- Diffusion autoregressive end-to-end
- Sin tokenización discreta intermedia
Casos de uso
- Voz para agentes IA: Reemplazar TTS convencional con voz más natural y expresiva
- Clonación de voz: Clonar voces para narración, audiobooks, contenido personalizado
- Doblaje multilingüe: Generar speech en 30 idiomas con misma voz clonada
- Diseño de personajes: Crear voces únicas para personajes de juegos, apps, asistentes
- Accesibilidad: Generar speech natural para personas con dificultades de lectura
Snippets útiles
Instalación básica
# Clonar
git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM
# Instalar dependencias
pip install -r requirements.txt
# o con uv
uv sync
Inferencia básica
from src.voxcpm import VoxCPM2
# Cargar modelo
model = VoxCPM2.from_pretrained("openbmb/VoxCPM2")
# Generar speech desde texto
audio = model.synthesize(
text="Hola, soy un asistente de voz con IA.",
language="es"
)
# audio es un tensor de audio 48kHz
Voice Design (crear voz desde descripción)
# Crear una voz nueva desde descripción natural
audio = model.synthesize(
text="Texto a sintetizar",
voice_design="una voz femenina joven, tono alegre, ritmo rápido",
language="es"
)
Voice Cloning
# Clonar desde audio de referencia
audio = model.synthesize(
text="Texto a sintetizar",
reference_audio="ruta/al/audio/referencia.wav",
style="tono profesional, ritmo pausado",
language="es"
)
Web UI Demo
# Ejecutar demo web
python app.py
# Acceder a http://localhost:7860
Fine-tuning con LoRA
# Fine-tuning con LoRA via web UI
python lora_ft_webui.py
# Permite entrenar el modelo con datos propios
Cómo integrarlo
Con sistema de voz Mastermind (Voicebox/VibeVoice)
VoxCPM2 puede ser un motor TTS alternativo:
- Voice Design: crear voces únicas para diferentes agentes
- Voice Cloning: clonar voces reales para personalización
- Multilingüe: soporte nativo 30 idiomas sin traducción
- Calidad: 48kHz studio-quality superior a TTS convencional
Como microservicio
1. Deploy en servidor con GPU (requiere ~8GB VRAM mínimo)
2. Exponer API REST para inferencia
3. Integrar con pipeline de TTS existente
4. Cache de resultados para textos frecuentes
Pipeline de generación de voz
Texto → VoxCPM2 (con voice design/cloning) → Audio 48kHz
→ Post-procesamiento (normalización, efectos) → Output final
Pitfalls
- Requiere GPU: El modelo de 2B parámetros necesita GPU con al menos 8GB VRAM para inferencia
- Tamaño del modelo: ~4-8GB de pesos descargados de HuggingFace
- Latencia: Inferencia más lenta que TTS convencional (diffusion autoregressive)
- Dependencias PyTorch: Requiere PyTorch con soporte CUDA para GPU
- Idiomas: Aunque soporta 30 idiomas, la calidad puede variar por idioma
- Fine-tuning: Requiere datos de audio de alta calidad y cantidad suficiente
Arquitectura
src/
├── voxcpm/ — Modelo principal VoxCPM2
├── diffusion/ — Componentes de diffusion model
├── autoregressive/ — Modelo autoregressive
├── vocoder/ — Vocoder para audio output
├── voice_design/ — Módulo de voice design
├── voice_clone/ — Módulo de voice cloning
└── utils/ — Utilidades
conf/ — Configuraciones
examples/ — Ejemplos de uso
scripts/ — Scripts de entrenamiento/inferencia
tests/ — Tests
Fecha de descubrimiento: 2026-06-02
Trending: #1 diario (888 estrellas hoy), 24,738 estrellas totales Creado: 2025-09-16 (relativamente nuevo, ~9 meses) Topics: audio, deeplearning, minicpm, multilingual, python, pytorch, speech, speech-synthesis, tts, voice-cloning, voice-design