voxcpm

star 0

VoxCPM2: TTS tokenizer-free 2B params, 30 idiomas, Voice Design, Voice Cloning, 48kHz, streaming real-time. Apache-2.0. 25.8k⭐.

Ntizar By Ntizar schedule Updated 6/5/2026

name: voxcpm description: "VoxCPM2: TTS tokenizer-free 2B params, 30 idiomas, Voice Design, Voice Cloning, 48kHz, streaming real-time. Apache-2.0. 25.8k⭐." url: https://github.com/OpenBMB/VoxCPM category: media fecha: 2026-06-05

VoxCPM2 — TTS Tokenizer-Free de Última Generación

URL

https://github.com/OpenBMB/VoxCPM

Categoría

media (text-to-speech / generación de voz)

¿Qué hace?

VoxCPM2 es un sistema tokenizer-free de Text-to-Speech que genera representaciones de speech continuas vía arquitectura diffusion autoregressive end-to-end, sin pasar por tokenización discreta. Esto produce audio extremadamente natural y expresivo.

Especificaciones:

  • 2B parámetros entrenado con 2+ millones de horas de speech multilingüe
  • 30 idiomas soportados (incluye 8 dialectos chinos: 四川话, 粤语, 吴语, etc.)
  • Voice Design: crear voz nueva desde descripción natural (género, edad, tono, emoción, ritmo...) sin audio de referencia
  • Controllable Cloning: clonar voz de referencia corta con guía de estilo
  • Ultimate Cloning: reproducir cada matiz vocal con audio + transcript de referencia
  • 48kHz studio-quality: super-resolución integrada, no necesita upsampler externo
  • Streaming real-time: RTF ~0.3 en RTX 4090, ~0.13 con Nano-vLLM
  • Apache-2.0: open-source y comercialmente usable

Casos de uso

  1. TTS natural: generación de voz ultra-realista para cualquier aplicación
  2. Voice cloning: clonar voces con control emocional y de estilo
  3. Voice design: crear voces nuevas desde descripción textual
  4. Multi-idioma: una sola modelo para 30 idiomas + dialectos
  5. Producción: deployment con vLLM-Omni para API OpenAI-compatible

Snippets útiles

Instalación básica

pip install voxcpm

TTS básico

from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
audio = model.generate("Hola, ¿cómo estás?")
# audio: numpy array a 48kHz

Voice Design (crear voz desde texto)

audio = model.generate(
    text="Esta es una voz diseñada desde cero",
    voice_design="male, young, warm tone, slow pace"
)

Voice Cloning con referencia

audio = model.generate(
    text="Texto a sintetizar",
    reference_audio="referencia.wav",
    reference_text="transcripción de la referencia"
)

Deployment con Nano-vLLM (ultra-rápido)

# Aceleración con Nano-vLLM
pip install nanovllm-voxcpm
# RTF ~0.13 en RTX 4090

Deployment con vLLM-Omni (API OpenAI-compatible)

# Serving con PagedAttention
pip install vllm-omni
# API compatible con OpenAI client

Cómo integrarlo

  • Python API: pip install voxcpm y usar directamente
  • Production: Nano-vLLM o vLLM-Omni para serving escalable
  • CLI: herramienta de línea de comandos incluida
  • Web Demo: demo web auto-alojable incluida
  • Fine-tuning: SFT y LoRA disponibles

Pitfalls

  • Requiere Python ≥ 3.10, < 3.13 y PyTorch ≥ 2.5.0 con CUDA ≥ 12.0
  • GPU recomendada para inferencia rápida (no obligatoria pero muy recomendada)
  • Voice Design puede producir resultados inconsistentes con descripciones muy específicas
  • El modelo base es de 2B params — requiere ~4-8GB VRAM mínimo
  • Los dialectos chinos pueden tener calidad variable respecto al mandarín estándar

Fecha de descubrimiento

2026-06-05 (trending semanal + 25.8k⭐)

Install via CLI
npx skills add https://github.com/Ntizar/koldo --skill voxcpm
Repository Details
star Stars 0
call_split Forks 0
navigation Branch main
article Path SKILL.md
More from Creator