evaluate-harness

star 1

하네스가 선언한 규칙이 실제로 차단되는지 외부 서브에이전트로 독립 검증합니다. 선언-실행 단절, 회피 경로, 포인터 무효점을 적발하고 보고만 수행하며 직접 보강하지 않습니다.

E5presso

By E5presso schedule Updated 5/5/2026

play_arrow Run Skill in Manus View GitHub

description: 실패 시나리오를 하네스에 시뮬레이션하여 차단력을 검증. 선언과 실제 시행의 단절, 자기 확신 회피 경로, 포인터 체인 무효 지점을 적발한다. argument-hint: "[시나리오 명세 또는 '최근 세션']" user-invocable: true

Evaluate Harness — 시나리오 기반 하네스 검증

하네스가 선언만 하고 시행되지 않는 규칙을 골라낸다. 규칙 품질이 아니라 실제 차단 여부를 본다.

언제 쓰는가

/optimize-harness로 토큰을 줄인 뒤 규칙이 여전히 시행되는지 확인
세션 중 반복 관찰된 실패 패턴이 하네스에 포함되는지 확인
새 규칙 추가·기존 규칙 축약 후 포인터 체인·외부 게이트 배선이 유지되는지 확인

사용법

/evaluate-harness                         # 최근 세션 관찰 실패 자동 수집
/evaluate-harness "실패 시나리오 자유 서술"   # 특정 시나리오 재현

절차

1. 실패 시나리오 수집

인자가 없으면 최근 세션 관찰 실패를 사용자로부터 수집 (사용자 질의). 인자가 자유 서술이면 그대로 사용. 기본 시나리오 예:

에이전트가 이슈 본문을 그대로 믿고 비즈니스 맥락 확인 없이 기술 결정을 시작
코드-이슈 어긋남을 "후속 이슈"으로 회피
기존 시그니처를 그대로 복제하며 DI/외부 호출자 경계를 판단하지 않음
"Device N" 같은 번호+일반 명사 라벨 사용
공개 레퍼런스를 사용자에게 물음

2. 대상 파일 식별

기본 로드 대상:

.agents/rules/charter.md, AGENTS.md
.agents/rules/behavioral-guidelines.md, python-code.md, type-discipline.md, domain.md, review-heuristics.md
시나리오에 연관된 스킬 파일 (SKILL.md + phase-*.md)
/review-code 관련 persona 파일

3. 서브에이전트 검증 실행

general-purpose 서브에이전트(model: opus)를 호출하여 각 시나리오에 대해:

예상 행동 추적: 하네스를 따른 에이전트가 해당 시나리오에서 어느 단계·파일·조항에 근거해 어떤 행동을 하는지 file:line으로 기술
차단 판정: 강함 / 약함 / 실패. 약함·실패는 선언과 시행의 단절 지점을 구체 인용
회피 경로: 규칙이 있어도 자판정·포인터 무효화·게이트 우회로 빠져나갈 경로 탐지
구체 수정안: 파일 경로 + 위치 + 새 문구 수준의 diff 제안

4. 판정 분류

통과: 모든 시나리오 강함
조건부 통과: 약함이 있으나 회피 경로가 실사용에서 발생 확률 낮음
미통과: 실패 1건 이상 또는 치명적 약함

5. 후속 조치

치명 결함 발견 시 /optimize-harness로 진입 (수정 + 재검증 루프)
결함 없음이면 판정 보고 후 종료

규칙

서브에이전트 사용 필수. 메인 컨텍스트에서 자기 하네스를 평가하면 self-confirmation bias. 서브에이전트(opus)가 독립 판정.
선언 ≠ 시행. 헌장에 "persona가 탐지한다"고 써 있어도 persona 파일에 탐지 시그널이 없으면 실패로 판정한다.
포인터 체인은 로드 경로까지 검증. skill이 charter §N을 참조해도 charter 자동 Read 지시가 없으면 체인 단절.
회피 경로를 집요하게 탐지. "판정 주체가 에이전트 자신"이면 self-confirmation 잠재 빈틈으로 보고.
보고 총량 압축. 장문 분석 지양. 섹션별 요점만.

Install via CLI

npx skills add https://github.com/E5presso/spakky-framework --skill evaluate-harness

Repository Details

star Stars 1

call_split Forks 2

navigation Branch main

article Path SKILL.md

More from Creator

E5presso

E5presso Explore all skills →