name: nvidia-cosmos description: "Plataforma de world models de NVIDIA — modelos omnimodales para simulación, generación y razonamiento del mundo físico. 9K+ estrellas." url: https://github.com/NVIDIA/cosmos category: ia fecha: 2026-06-05
NVIDIA Cosmos — World Models Platform
¿Qué hace?
Cosmos es una plataforma open de world models de NVIDIA diseñada para construir Physical AI para robots, vehículos autónomos, infraestructura inteligente y más. Cosmos 3 es un modelo omnimodal construido sobre una arquitectura Mixture-of-Transformers (MoT) que combina un transformer autoregresivo para razonamiento con un diffusion transformer para generación multimodal.
Expon dos superficies de ejecución:
| Superficie | Entradas | Salidas | Casos de uso |
|---|---|---|---|
| Reasoner | Texto, visión | Texto | Comprensión del mundo, razonamiento físico, planificación de tareas, forecasting de acciones |
| Generator | Texto, visión, sonido, acción | Visión, sonido, acción | Generación del mundo, simulación, predicción de futuro, datos sintéticos, entrenamiento de políticas |
Casos de uso
- Generación de video: Text-to-video, image-to-video, video-to-video con resolución hasta 720p
- Razonamiento físico: Análisis de videos para detección de eventos, grounding espacial, plausibilidad física
- Políticas de robots: Predicción de acciones y rollouts de video desde contexto visual
- Datos sintéticos: Generación de datos de entrenamiento para políticas de robótica
- Simulación futura: Predecir estados futuros a partir de acciones y contexto visual
Modelos disponibles
| Modelo | Tamaño | Capacidad principal |
|---|---|---|
| Cosmos3-Nano | 16B | Modelo omnimodal compacto |
| Cosmos3-Super | 64B | Modelo frontier-scale omnimodal |
| Cosmos3-Super-Text2Image | 64B | Generación text-to-image |
| Cosmos3-Super-Image2Video | 64B | Generación image-to-video |
| Cosmos3-Nano-Policy-DROID | 16B | Política de visión-lenguaje para robótica |
Snippets útiles
Generador con Diffusers
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano",
torch_dtype=torch.bfloat16,
device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)
result = pipe(
prompt="A mobile robot navigates a warehouse aisle",
num_frames=189,
height=720,
width=1280,
fps=24,
num_inference_steps=35,
guidance_scale=6.0,
)
Servidor vLLM-Omni (producción)
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-v "$(pwd):/workspace" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-omni:cosmos3 \
vllm serve nvidia/Cosmos3-Nano \
--omni \
--model-class-name Cosmos3OmniDiffusersPipeline \
--port 8000 \
--init-timeout 1800
Reasoner con mensaje JSON
[
{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
{"role": "user", "content": [
{"type": "video_url", "video_url": "https://example.com/video.mp4"},
{"type": "text", "text": "List notable events with timestamps."}
]}
]
Cómo integrarlo
- Autenticar HuggingFace:
uvx hf@latest auth login - Instalar dependencias con
uv pip install - Para investigación: usar Diffusers + Transformers
- Para producción: usar vLLM-Omni con Docker
- Requiere GPU NVIDIA (Ampere, Hopper, Blackwell)
Pitfalls
- Requiere GPU NVIDIA — no funciona en CPU
- CUDA 13 driver necesario para
--torch-backend=auto— usar--torch-backend=cu128para drivers más antiguos - Diffusers es lento — la primera descarga del modelo tarda, y la inferencia diffusion es computacionalmente pesada
- vLLM-Omni init timeout — los checkpoints de Cosmos3 exceden el timeout por defecto, usar
--init-timeout 1800 - Solo Linux — no soportado en Windows/macOS para inferencia
- Modelos grandes — Cosmos3-Super (64B) necesita multi-GPU o layer-wise offloading
Fecha de descubrimiento
2026-06-05 — trending diario + semanal, 9K estrellas, plataforma de world models de NVIDIA