evaluate-harness

star 1

하네스가 선언한 규칙이 실제로 차단되는지 외부 서브에이전트로 독립 검증합니다. 선언-실행 단절, 회피 경로, 포인터 무효점을 적발하고 보고만 수행하며 직접 보강하지 않습니다.

E5presso By E5presso schedule Updated 5/5/2026

description: 실패 시나리오를 하네스에 시뮬레이션하여 차단력을 검증. 선언과 실제 시행의 단절, 자기 확신 회피 경로, 포인터 체인 무효 지점을 적발한다. argument-hint: "[시나리오 명세 또는 '최근 세션']" user-invocable: true

Evaluate Harness — 시나리오 기반 하네스 검증

하네스가 선언만 하고 시행되지 않는 규칙을 골라낸다. 규칙 품질이 아니라 실제 차단 여부를 본다.

언제 쓰는가

  • /optimize-harness로 토큰을 줄인 뒤 규칙이 여전히 시행되는지 확인
  • 세션 중 반복 관찰된 실패 패턴이 하네스에 포함되는지 확인
  • 새 규칙 추가·기존 규칙 축약 후 포인터 체인·외부 게이트 배선이 유지되는지 확인

사용법

/evaluate-harness                         # 최근 세션 관찰 실패 자동 수집
/evaluate-harness "실패 시나리오 자유 서술"   # 특정 시나리오 재현

절차

1. 실패 시나리오 수집

인자가 없으면 최근 세션 관찰 실패를 사용자로부터 수집 (사용자 질의). 인자가 자유 서술이면 그대로 사용. 기본 시나리오 예:

  • 에이전트가 이슈 본문을 그대로 믿고 비즈니스 맥락 확인 없이 기술 결정을 시작
  • 코드-이슈 어긋남을 "후속 이슈"으로 회피
  • 기존 시그니처를 그대로 복제하며 DI/외부 호출자 경계를 판단하지 않음
  • "Device N" 같은 번호+일반 명사 라벨 사용
  • 공개 레퍼런스를 사용자에게 물음

2. 대상 파일 식별

기본 로드 대상:

  • .agents/rules/charter.md, AGENTS.md
  • .agents/rules/behavioral-guidelines.md, python-code.md, type-discipline.md, domain.md, review-heuristics.md
  • 시나리오에 연관된 스킬 파일 (SKILL.md + phase-*.md)
  • /review-code 관련 persona 파일

3. 서브에이전트 검증 실행

general-purpose 서브에이전트(model: opus)를 호출하여 각 시나리오에 대해:

  1. 예상 행동 추적: 하네스를 따른 에이전트가 해당 시나리오에서 어느 단계·파일·조항에 근거해 어떤 행동을 하는지 file:line으로 기술
  2. 차단 판정: 강함 / 약함 / 실패. 약함·실패는 선언과 시행의 단절 지점을 구체 인용
  3. 회피 경로: 규칙이 있어도 자판정·포인터 무효화·게이트 우회로 빠져나갈 경로 탐지
  4. 구체 수정안: 파일 경로 + 위치 + 새 문구 수준의 diff 제안

4. 판정 분류

  • 통과: 모든 시나리오 강함
  • 조건부 통과: 약함이 있으나 회피 경로가 실사용에서 발생 확률 낮음
  • 미통과: 실패 1건 이상 또는 치명적 약함

5. 후속 조치

  • 치명 결함 발견 시 /optimize-harness로 진입 (수정 + 재검증 루프)
  • 결함 없음이면 판정 보고 후 종료

규칙

  • 서브에이전트 사용 필수. 메인 컨텍스트에서 자기 하네스를 평가하면 self-confirmation bias. 서브에이전트(opus)가 독립 판정.
  • 선언 ≠ 시행. 헌장에 "persona가 탐지한다"고 써 있어도 persona 파일에 탐지 시그널이 없으면 실패로 판정한다.
  • 포인터 체인은 로드 경로까지 검증. skill이 charter §N을 참조해도 charter 자동 Read 지시가 없으면 체인 단절.
  • 회피 경로를 집요하게 탐지. "판정 주체가 에이전트 자신"이면 self-confirmation 잠재 빈틈으로 보고.
  • 보고 총량 압축. 장문 분석 지양. 섹션별 요점만.
Install via CLI
npx skills add https://github.com/E5presso/spakky-framework --skill evaluate-harness
Repository Details
star Stars 1
call_split Forks 2
navigation Branch main
article Path SKILL.md
More from Creator