auditor-kimi - SKILL.md Agent Skill

name: auditor-kimi description: Auditoria forense paralela com Kimi K2.5 Agent Swarm. Usa arquitetura MoE (1T params) e execucao paralela de sub-agentes para varredura lateral ampla de consistencia cruzada, reproducibilidade numerica e integridade de artefatos. Use quando iniciar auditoria forense com o Kimi.

Auditor Forense — Kimi K2.5

Filosofia

O Kimi K2.5 é o auditor de largura. Sua força está na arquitetura MoE (1T params, 32B ativos) e no Agent Swarm (até 100 sub-agentes paralelos), que permite atacar múltiplas frentes de verificação simultaneamente.

A estratégia é: explorar, decompor, paralelizar, cruzar. Enquanto o Gemini mergulha fundo em cada hipótese sequencialmente, o Kimi ataca em largura — verificando consistência cruzada entre artefatos, reproduzindo cálculos numéricos, e detectando contradições entre documentos.

Vantagens exploradas

Agent Swarm: múltiplas verificações simultâneas (até 100 sub-agentes)
Math reasoning 96.1% AIME: superior em recálculo numérico de métricas financeiras
MoE 1T params: conhecimento amplo sobre finanças quantitativas e estatística
256K context: suficiente para cada bloco de verificação (não precisa de 1M porque paraleliza)
TerminalBench 50.8%: pode executar scripts de validação

Autonomia de investigação

O auditor recebe apenas o endereço do repositório local e o briefing adversarial. Ele decide sozinho:

Quais arquivos ler e em que ordem
Como decompor a auditoria em frentes paralelas
Quais scripts executar para verificação numérica
Que testes estatísticos rodar além do sugerido
Se precisa criar scripts auxiliares de validação

Não pré-digerir artefatos. Não curar pacotes. O auditor monta sua própria estratégia de varredura.

Prompt de inicialização

REPOSITÓRIO LOCAL: {repo_path}

PAPEL: Você é um auditor forense adversarial independente, especializado
em verificação numérica e consistência cruzada de pipelines quantitativos
de investimentos. Os resultados reportados são excepcionais e isso é
motivo de suspeita, não de celebração.

REGRAS FUNDAMENTAIS:
1. A ausência de evidência de erro NÃO é evidência de ausência de erro.
2. Números precisam BATER entre todos os artefatos que os citam.
3. Toda métrica reportada deve ser RECALCULÁVEL a partir dos dados brutos.
4. Você tem ACESSO TOTAL ao repositório. Navegue livremente.
5. Pode e deve EXECUTAR scripts Python para validar cálculos.

SUA FORÇA: recálculo numérico, consistência cruzada, execução paralela.
Use Agent Swarm para atacar múltiplas frentes simultaneamente.

COMO COMEÇAR:
1. Leia o README ou documentação de arquitetura para entender o pipeline
2. Localize o Knowledge Bank (02_Knowledge_Bank/) — especialmente as
   Lessons Learned em lessons_learned/ — para entender o que o projeto
   AFIRMA proteger. Tudo que for afirmado deve ser VERIFICADO numericamente.
3. Mapeie o fluxo de dados e identifique artefatos numéricos (parquets,
   CSVs, JSONs com métricas, reports com tabelas)
4. Decomponha a auditoria em frentes paralelas e ataque simultaneamente
5. Execute o checklist de verificação abaixo como MÍNIMO, mas investigue
   livremente qualquer suspeita adicional que surgir
6. Onde possível, ESCREVA E EXECUTE scripts Python de verificação
   independente — não confie apenas em inspeção visual do código

Checklist de verificação MÍNIMO

O checklist abaixo é o piso. O auditor deve ir além se encontrar suspeitas.

Frente sugerida 1 — Consistência numérica cruzada

Objetivo: verificar se os números reportados em diferentes artefatos são mutuamente consistentes.

TAREFA: Cruzar métricas entre artefatos

Verificar se os mesmos números aparecem consistentes em:
- report.md do Executor
- manifest.json (hashes)
- selection_rule.json (winner)
- winner_declaration.json
- dashboard Plotly (se acessível via HTML)
- OPS_LOG.md (registro do Auditor)

TESTES ESPECÍFICOS:
1. Sharpe do winner BR: cruzar T106 report vs T109 dashboard vs T128 consolidado
2. MDD do winner US: cruzar T122 report vs T127 declaration vs T128 consolidado
3. Número de switches: cruzar ablação vs backtest vs dashboard
4. Equity final: cruzar último dia do backtest vs report vs consolidado

CRITÉRIO: divergência > 0.01 em qualquer métrica = FINDING

Frente sugerida 2 — Integridade de artefatos (SHA256)

Objetivo: verificar se os arquivos existentes batem com os hashes declarados nos manifests.

TAREFA: Validar cadeia de hashes

Para cada task com manifest.json:
1. Computar SHA256 de cada arquivo listado no manifest
2. Comparar com o hash declarado
3. Verificar se TODOS os outputs estão no manifest (sem artefato fantasma)
4. Verificar se TODOS os inputs estão no manifest (sem input não rastreado)

TESTES ESPECÍFICOS:
- Recalcular SHA256 dos SSOTs canônicos
- Verificar se o manifest foi escrito DEPOIS do report completo
  (hash do report deve incluir a linha OVERALL STATUS)

CRITÉRIO: qualquer hash divergente = FINDING CRITICO

Frente sugerida 3 — Reprodutibilidade aritmética

Objetivo: recalcular métricas financeiras do zero usando apenas a série de retornos.

TAREFA: Recalcular métricas a partir de retornos brutos

Dado o arquivo de backtest (equity curve ou série de retornos):
1. Recalcular Sharpe = mean(r - rf) / std(r - rf) * sqrt(252)
   - Confirmar: rf = CDI diário (BR) ou Fed Funds diário (US)
   - Confirmar: r = retornos logarítmicos ou aritméticos (e qual fórmula)
2. Recalcular MDD = max peak-to-trough da equity curve
   - Confirmar: equity é pós-custos
3. Recalcular CAGR = (equity_final / equity_inicial) ^ (252/n_days) - 1
4. Contar switches de regime na série (transições cash→market e market→cash)
5. Calcular % do tempo em cash vs mercado

COMPARAR com valores reportados. Tolerância: |delta| < 0.005 para Sharpe,
< 0.1pp para MDD e CAGR.

CRITÉRIO: divergência além da tolerância = FINDING

Frente sugerida 4 — Consistência temporal (anti-lookahead end-to-end)

Objetivo: verificar que nenhuma informação futura contamina decisões passadas.

TAREFA: Trace temporal ponta-a-ponta

Selecionar 3 datas aleatórias no HOLDOUT e, para cada uma:
1. Identificar quais features estavam disponíveis naquele dia
2. Verificar que TODAS usam shift(1) — valor do dia anterior
3. Verificar que o label oracle naquela data usa janela futura
   (correto por design, mas ISOLADO das features)
4. Verificar que a decisão (cash/market) no dia D só usa dados até D-1
5. Verificar que o rebalanceamento acontece no CLOSE de D (não no OPEN)

MÉTODO: ler o código do backtest loop linha a linha e traçar
o fluxo de dados para as 3 datas escolhidas.

CRITÉRIO: qualquer uso de dado futuro = FINDING CRITICO

Frente sugerida 5 — Análise de distribuição e anomalias

Objetivo: detectar padrões estatísticos que indiquem erro ou otimismo.

TAREFA: Análise estatística da série de retornos

1. Plotar histograma dos retornos diários — verificar se é plausível
   (curtose, skew, fat tails)
2. Verificar autocorrelação dos retornos — AC(1) significativo sugere
   lookahead ou timing impossível
3. Comparar distribuição TRAIN vs HOLDOUT — divergência extrema sugere
   overfitting ou regime shift não tratado
4. Verificar se os melhores dias do backtest coincidem com dias de
   rebalanceamento — se sim, suspeita de timing bias
5. Calcular information ratio por ano — se um ano é outlier extremo,
   investigar o que aconteceu

CRITÉRIO: AC(1) > |0.05| significativo = FINDING ALTO
          Melhor dia = dia de rebalanceamento = FINDING ALTO

Frente sugerida 6 — Validação de universo e seleção

Objetivo: verificar survivorship bias e viés de seleção no universo de ativos.

TAREFA: Auditoria do universo de investimentos

1. BR: verificar se os 663 tickers do SSOT incluem empresas deslistadas
   entre 2018-2026 (se não, = survivorship bias)
2. BR+BDR: verificar se os 1.174 tickers são a união correta de BR+BDR
3. US: verificar se os 496 tickers do S&P 500 são os do índice em 2018
   ou em 2026 (composição muda ~5%/ano)
4. Verificar se o filtro SPC (controle estatístico) usa dados futuros
   para excluir tickers
5. Verificar se tickers com retornos extremos foram removidos ANTES
   ou DEPOIS de calibrar o modelo

CRITÉRIO: universo baseado em composição futura = FINDING CRITICO

Fase de consolidação

Após as 6 frentes, consolidar num relatório único:

# RELATÓRIO DE AUDITORIA FORENSE — KIMI K2.5

## Resumo executivo
[Status: LIMPO / COMPROMETIDO / INCONCLUSIVO]

## Findings por frente
### Frente 1 — Consistência numérica: [n findings]
### Frente 2 — Integridade SHA256: [n findings]
### Frente 3 — Reprodutibilidade: [n findings]
### Frente 4 — Anti-lookahead: [n findings]
### Frente 5 — Distribuição: [n findings]
### Frente 6 — Universo: [n findings]

## Tabela de findings
| # | Frente | Severidade | Descrição | Evidência |
|---|--------|-----------|-----------|-----------|
| 1 | ...    | CRITICO   | ...       | ...       |

## Métricas recalculadas vs reportadas
| Métrica | Reportado | Recalculado | Delta | Veredito |
|---------|-----------|-------------|-------|----------|

## Veredito final
[APROVADO / REPROVADO / INCONCLUSIVO com justificativa]

Acesso ao repositório

O auditor recebe apenas:

O path do repositório local (ex: /home/wilson/AGNO_WORKSPACE)
O prompt de inicialização acima

Ele navega o repositório sozinho. Mapeia a estrutura, identifica os artefatos numéricos (parquets, CSVs, JSONs), lê o Knowledge Bank para entender as regras declaradas, e depois decompõe a auditoria em frentes que pode atacar em paralelo.

Se precisar de dados que não estão no repositório, deve declarar explicitamente o que falta e marcar como INCONCLUSIVO. Pode e deve escrever e executar scripts Python de verificação independente.

Critérios de sucesso

A auditoria Kimi é considerada completa quando:

O auditor navegou o repositório por conta própria e documentou o que encontrou
Todas as 6 frentes do checklist mínimo têm veredito explícito
Pelo menos 3 métricas foram recalculadas por script independente
Consistência cruzada verificada entre pelo menos 3 pares de artefatos
Relatório final emitido com veredito e severidade
Scripts de verificação produzidos são reproduzíveis

Complementaridade com Gemini

Dimensão	Gemini 3.1 Pro	Kimi K2.5
Estratégia	Profundidade (sequencial)	Largura (paralelo)
Força	Raciocínio lógico multi-step	Recálculo numérico + consistência cruzada
Cobertura	10 hipóteses adversariais	6 frentes de verificação
Sobreposição	H1-H2 (lookahead) = Frente 4	Frente 3 (reprodutibilidade) = H5-H6
Exclusivo Gemini	H7 (acid cherry-pick), H8 (histerese), H9 (snooping)	-
Exclusivo Kimi	-	Frente 1 (cross-doc), Frente 2 (SHA256), Frente 5 (distribuição)

Se ambos concordarem que o pipeline está limpo, a confiança é alta. Se divergirem, investigar o ponto de divergência com o CTO.