nvidia-cosmos

star 0

Plataforma de world models de NVIDIA — modelos omnimodales para simulación, generación y razonamiento del mundo físico. 9K+ estrellas.

Ntizar By Ntizar schedule Updated 6/5/2026

name: nvidia-cosmos description: "Plataforma de world models de NVIDIA — modelos omnimodales para simulación, generación y razonamiento del mundo físico. 9K+ estrellas." url: https://github.com/NVIDIA/cosmos category: ia fecha: 2026-06-05

NVIDIA Cosmos — World Models Platform

¿Qué hace?

Cosmos es una plataforma open de world models de NVIDIA diseñada para construir Physical AI para robots, vehículos autónomos, infraestructura inteligente y más. Cosmos 3 es un modelo omnimodal construido sobre una arquitectura Mixture-of-Transformers (MoT) que combina un transformer autoregresivo para razonamiento con un diffusion transformer para generación multimodal.

Expon dos superficies de ejecución:

Superficie Entradas Salidas Casos de uso
Reasoner Texto, visión Texto Comprensión del mundo, razonamiento físico, planificación de tareas, forecasting de acciones
Generator Texto, visión, sonido, acción Visión, sonido, acción Generación del mundo, simulación, predicción de futuro, datos sintéticos, entrenamiento de políticas

Casos de uso

  • Generación de video: Text-to-video, image-to-video, video-to-video con resolución hasta 720p
  • Razonamiento físico: Análisis de videos para detección de eventos, grounding espacial, plausibilidad física
  • Políticas de robots: Predicción de acciones y rollouts de video desde contexto visual
  • Datos sintéticos: Generación de datos de entrenamiento para políticas de robótica
  • Simulación futura: Predecir estados futuros a partir de acciones y contexto visual

Modelos disponibles

Modelo Tamaño Capacidad principal
Cosmos3-Nano 16B Modelo omnimodal compacto
Cosmos3-Super 64B Modelo frontier-scale omnimodal
Cosmos3-Super-Text2Image 64B Generación text-to-image
Cosmos3-Super-Image2Video 64B Generación image-to-video
Cosmos3-Nano-Policy-DROID 16B Política de visión-lenguaje para robótica

Snippets útiles

Generador con Diffusers

import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)

result = pipe(
    prompt="A mobile robot navigates a warehouse aisle",
    num_frames=189,
    height=720,
    width=1280,
    fps=24,
    num_inference_steps=35,
    guidance_scale=6.0,
)

Servidor vLLM-Omni (producción)

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v "$(pwd):/workspace" \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-omni:cosmos3 \
  vllm serve nvidia/Cosmos3-Nano \
  --omni \
  --model-class-name Cosmos3OmniDiffusersPipeline \
  --port 8000 \
  --init-timeout 1800

Reasoner con mensaje JSON

[
  {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
  {"role": "user", "content": [
    {"type": "video_url", "video_url": "https://example.com/video.mp4"},
    {"type": "text", "text": "List notable events with timestamps."}
  ]}
]

Cómo integrarlo

  1. Autenticar HuggingFace: uvx hf@latest auth login
  2. Instalar dependencias con uv pip install
  3. Para investigación: usar Diffusers + Transformers
  4. Para producción: usar vLLM-Omni con Docker
  5. Requiere GPU NVIDIA (Ampere, Hopper, Blackwell)

Pitfalls

  • Requiere GPU NVIDIA — no funciona en CPU
  • CUDA 13 driver necesario para --torch-backend=auto — usar --torch-backend=cu128 para drivers más antiguos
  • Diffusers es lento — la primera descarga del modelo tarda, y la inferencia diffusion es computacionalmente pesada
  • vLLM-Omni init timeout — los checkpoints de Cosmos3 exceden el timeout por defecto, usar --init-timeout 1800
  • Solo Linux — no soportado en Windows/macOS para inferencia
  • Modelos grandes — Cosmos3-Super (64B) necesita multi-GPU o layer-wise offloading

Fecha de descubrimiento

2026-06-05 — trending diario + semanal, 9K estrellas, plataforma de world models de NVIDIA

Install via CLI
npx skills add https://github.com/Ntizar/koldo --skill nvidia-cosmos
Repository Details
star Stars 0
call_split Forks 0
navigation Branch main
article Path SKILL.md
More from Creator