eval-result-viewer

star 0

Uma skill que fornece um script Python para gerar e servir uma página web interativa para revisar os resultados de avaliações (evals) de skills, com a identidade visual Vectra Cargo.

Marcelo-Rosas By Marcelo-Rosas schedule Updated 3/7/2026

name: eval-result-viewer description: Uma skill que fornece um script Python para gerar e servir uma página web interativa para revisar os resultados de avaliações (evals) de skills, com a identidade visual Vectra Cargo.

Skill: Visualizador de Resultados de Avaliação (eval-result-viewer)

Esta skill fornece um utilitário de linha de comando (gerar_revisao_eval.py) que inspeciona um diretório de workspace, encontra todas as execuções de avaliação (runs), e gera uma página HTML autocontida para revisão e feedback.

Funcionalidades

  • Servidor Web Local: Inicia um servidor web na porta 3117 (ou outra porta disponível) para servir a página de revisão.
  • Geração Estática: Alternativamente, pode gerar um arquivo index.html estático sem iniciar um servidor.
  • Visualização de Artefatos: Renderiza inline arquivos de texto, imagens, PDFs e oferece links para download de outros formatos binários.
  • Coleta de Feedback: Permite que o revisor escreva um feedback para cada execução, que é salvo automaticamente em feedback.json no workspace.
  • Comparação com Execução Anterior: Pode carregar os resultados de um workspace anterior para comparar o feedback e as saídas lado a lado.
  • Identidade Visual Vectra Cargo: O template HTML (templates/revisao_eval.html) é estilizado com o design system da Vectra Cargo.

Uso

O script principal está localizado em scripts/gerar_revisao_eval.py.

Iniciar o Servidor de Revisão

O comando básico para iniciar o servidor e abrir a página no navegador:

python3 skills/eval-result-viewer/scripts/gerar_revisao_eval.py <caminho_para_o_workspace>

Argumentos de Linha de Comando

Argumento Descrição
workspace (Obrigatório) Caminho para o diretório do workspace que contém as execuções.
--port, -p Porta para o servidor (padrão: 3117).
--skill-name, -n Nome da skill para exibir no cabeçalho (padrão: nome do diretório do workspace).
--previous-workspace Caminho para um workspace de uma iteração anterior para carregar feedback e saídas antigas como contexto.
--benchmark Caminho para um arquivo benchmark.json para exibir na aba de Benchmark.
--static, -s Gera um arquivo HTML estático no caminho especificado em vez de iniciar um servidor.

Estrutura de Diretório Esperada

O script espera a seguinte estrutura dentro do workspace:

<workspace>/
├── run-001/
│   ├── outputs/
│   │   ├── resultado.json
│   │   └── imagem.png
│   ├── transcript.md
│   └── grading.json
├── run-002/
│   └── ...
└── feedback.json  (será criado/atualizado pelo servidor)
Install via CLI
npx skills add https://github.com/Marcelo-Rosas/cargo-flow-navigator --skill eval-result-viewer
Repository Details
star Stars 0
call_split Forks 0
navigation Branch main
article Path SKILL.md
More from Creator
Marcelo-Rosas
Marcelo-Rosas Explore all skills →