nvidia-cosmos - SKILL.md Agent Skill

name: nvidia-cosmos description: "Plataforma de world models de NVIDIA — modelos omnimodales para simulación, generación y razonamiento del mundo físico. 9K+ estrellas." url: https://github.com/NVIDIA/cosmos category: ia fecha: 2026-06-05

NVIDIA Cosmos — World Models Platform

¿Qué hace?

Cosmos es una plataforma open de world models de NVIDIA diseñada para construir Physical AI para robots, vehículos autónomos, infraestructura inteligente y más. Cosmos 3 es un modelo omnimodal construido sobre una arquitectura Mixture-of-Transformers (MoT) que combina un transformer autoregresivo para razonamiento con un diffusion transformer para generación multimodal.

Expon dos superficies de ejecución:

Superficie	Entradas	Salidas	Casos de uso
Reasoner	Texto, visión	Texto	Comprensión del mundo, razonamiento físico, planificación de tareas, forecasting de acciones
Generator	Texto, visión, sonido, acción	Visión, sonido, acción	Generación del mundo, simulación, predicción de futuro, datos sintéticos, entrenamiento de políticas

Casos de uso

Generación de video: Text-to-video, image-to-video, video-to-video con resolución hasta 720p
Razonamiento físico: Análisis de videos para detección de eventos, grounding espacial, plausibilidad física
Políticas de robots: Predicción de acciones y rollouts de video desde contexto visual
Datos sintéticos: Generación de datos de entrenamiento para políticas de robótica
Simulación futura: Predecir estados futuros a partir de acciones y contexto visual

Modelos disponibles

Modelo	Tamaño	Capacidad principal
Cosmos3-Nano	16B	Modelo omnimodal compacto
Cosmos3-Super	64B	Modelo frontier-scale omnimodal
Cosmos3-Super-Text2Image	64B	Generación text-to-image
Cosmos3-Super-Image2Video	64B	Generación image-to-video
Cosmos3-Nano-Policy-DROID	16B	Política de visión-lenguaje para robótica

Snippets útiles

Generador con Diffusers

import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)

result = pipe(
    prompt="A mobile robot navigates a warehouse aisle",
    num_frames=189,
    height=720,
    width=1280,
    fps=24,
    num_inference_steps=35,
    guidance_scale=6.0,
)

Servidor vLLM-Omni (producción)

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v "$(pwd):/workspace" \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-omni:cosmos3 \
  vllm serve nvidia/Cosmos3-Nano \
  --omni \
  --model-class-name Cosmos3OmniDiffusersPipeline \
  --port 8000 \
  --init-timeout 1800

Reasoner con mensaje JSON

[
  {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
  {"role": "user", "content": [
    {"type": "video_url", "video_url": "https://example.com/video.mp4"},
    {"type": "text", "text": "List notable events with timestamps."}
  ]}
]

Cómo integrarlo

Autenticar HuggingFace: uvx hf@latest auth login
Instalar dependencias con uv pip install
Para investigación: usar Diffusers + Transformers
Para producción: usar vLLM-Omni con Docker
Requiere GPU NVIDIA (Ampere, Hopper, Blackwell)

Pitfalls

Requiere GPU NVIDIA — no funciona en CPU
CUDA 13 driver necesario para --torch-backend=auto — usar --torch-backend=cu128 para drivers más antiguos
Diffusers es lento — la primera descarga del modelo tarda, y la inferencia diffusion es computacionalmente pesada
vLLM-Omni init timeout — los checkpoints de Cosmos3 exceden el timeout por defecto, usar --init-timeout 1800
Solo Linux — no soportado en Windows/macOS para inferencia
Modelos grandes — Cosmos3-Super (64B) necesita multi-GPU o layer-wise offloading

Fecha de descubrimiento

2026-06-05 — trending diario + semanal, 9K estrellas, plataforma de world models de NVIDIA