eval-builder

star 16

Build or repair task evaluators and evaluator tests with deterministic-first strategy.

brainqub3

By brainqub3 schedule Updated 2/9/2026

play_arrow Run Skill in Manus View GitHub

name: eval-builder description: Build or repair task evaluators and evaluator tests with deterministic-first strategy. disable-model-invocation: true allowed-tools: - Read - Edit - Bash - Glob - Grep

eval-builder

Use this skill when evaluator is missing, incomplete, or failing tests.

Goal

Produce:

brainqub3/tasks/<task>/evaluator.py
brainqub3/tasks/<task>/tests/test_evaluator.py
Minimal fixtures/instances for deterministic assertions
Updated task.md output contract

Strategy Priority

Deterministic programmatic checks
JSON schema + explicit constraints
Simulator/replay checks
Fuzzy but programmatic heuristics
LLM judge as last resort

Workflow

Read task.md and instances.jsonl
Identify output contract and success criteria
Implement evaluator with explicit failure taxonomy
Add tests for:
- clear pass
- clear fail
- malformed output
Run pytest brainqub3/tasks/<task>/tests -q

Install via CLI

npx skills add https://github.com/brainqub3/agent-labs --skill eval-builder

Repository Details

star Stars 16

call_split Forks 6

navigation Branch main

article Path SKILL.md

More from Creator

brainqub3

brainqub3 Explore all skills →