name: hi-test description: "Tüm free/local modellere selam testi yap, skorları güncelle, durumu raporla. Triggers: hi-test, model test, selam testi, model sağlık, model health"
/hi-test — Model Sağlık Testi
Tüm free ve local modellere "Selam" gönderir, cevap alıp alamadığını ölçer, config/model-scores.json skorlarını günceller.
Kural: skip_reason varsa test etme, skora dahil etme
Adımlar
~/Projects/claude-config/claude-secrets/secrets.envve~/Projects/claude-config/config/model-scores.jsonokuskip_reasonolan modelleri listele — bunlar için agent başlatma- Geri kalan her model için ayrı bir Agent başlat — tek bir mesajda hepsini paralel olarak (20+ agent aynı anda)
- Tüm agent sonuçları gelince skorları hesapla ve
model-scores.json'u güncelle - Sonuç tablosunu ve özeti yaz
Her model için agent görevi
Her agent için prompt şablonu:
secrets.env dosyasını oku: ~/Projects/claude-config/claude-secrets/secrets.env
Şu modeli test et: <MODEL_ID>
Provider: <PROVIDER>
Mesaj: "Selam, kim olduğunu 1 cümlede söyle."
Bash ile curl çağrısı yap (aşağıdaki endpoint'i kullan).
Cevap geldiyse: "ok | <ilk 80 karakter>"
Gelmezse: "fail | <hata>"
Sadece bu tek satırı döndür, başka açıklama ekleme.
Model listesi ve endpoint'leri
Groq modelleri
Endpoint: POST https://api.groq.com/openai/v1/chat/completions
Header: Authorization: Bearer $GROQ_API_KEY
| Agent | Model ID |
|---|---|
| agent-groq-1 | llama-3.3-70b-versatile |
| agent-groq-2 | qwen/qwen3-32b |
| agent-groq-3 | moonshotai/kimi-k2-instruct |
| agent-groq-4 | meta-llama/llama-4-scout-17b-16e-instruct |
HuggingFace modelleri
Endpoint: POST https://router.huggingface.co/v1/chat/completions
Header: Authorization: Bearer $HF_TOKEN
| Agent | Model ID |
|---|---|
| agent-hf-1 | meta-llama/Llama-3.1-8B-Instruct |
| agent-hf-2 | deepseek-ai/DeepSeek-R1 (content boşsa fail say) |
| agent-hf-3 | google/gemma-4-31B-it |
Google Gemini
Endpoint: POST https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$GOOGLE_API_KEY
Body: {"contents":[{"parts":[{"text":"Selam, kim olduğunu 1 cümlede söyle."}]}],"generationConfig":{"maxOutputTokens":60}}
| Agent | Model ID |
|---|---|
| agent-google-1 | gemini-2.0-flash |
Cerebras modelleri
Endpoint: POST https://api.cerebras.ai/v1/chat/completions
Header: Authorization: Bearer $CEREBRAS_API_KEY
| Agent | Model ID |
|---|---|
| agent-cerebras-1 | llama3.1-8b |
| agent-cerebras-2 | qwen-3-235b-a22b-instruct-2507 |
Ollama (Local) modelleri
Endpoint: POST http://127.0.0.1:11434/api/generate
Body: {"model":"<name>","prompt":"Selam, kim olduğunu 1 cümlede söyle.","stream":false} — timeout 60s
| Agent | Model ID |
|---|---|
| agent-local-1 | qwen3.5:9b |
| agent-local-2 | qwen2.5-coder:7b |
| agent-local-3 | deepseek-coder:6.7b |
Skip — agent başlatma (skip_reason var)
together/inference→ invalid_keyserper/search→ no_api_keyfirecrawl/scrape→ no_api_keygroq/whisper-large-v3→ ses modeligroq/canopylabs/orpheus-v1-english→ TTS
Skor güncelleme (agent sonuçları toplandıktan sonra)
Her model için:
- ok →
tests_passed++,tests_run++ - fail →
tests_run++(tests_passed değişmez) - skip → hiçbiri değişmez
Formül: score = round((tests_passed / tests_run) * 100)
last_tested = bugünün tarihi, last_status = "ok"/"fail"/"skip" güncelle.
Sonuç tablosu
Model | Skor | Durum | Cevap
---------------------------------------------|------|-------|-------
groq/llama-3.3-70b-versatile | 100 | ✅ | Ben bir yapay...
hf/meta-llama/Llama-3.1-8B-Instruct | 100 | ✅ | Ben bir sanal...
cerebras/qwen-3-235b-a22b-instruct-2507 | 100 | ✅ | Ben, insanlar...
local/qwen3.5:9b | - | ❌ | OFFLINE
groq/whisper-large-v3 | - | ⏭️ | (ses modeli)
together/inference | - | ⏭️ | invalid_key
Özet
- Kaç model test edildi / toplam
- Kaçı ✅ / ⚠️ / ❌ / ⏭️
- Retire eşiğinin altındakiler (skor < 30): "🗑️ Eleme adayı: X"
- Warn eşiğindekiler (30-60): "⚠️ İzlemede: X"
When NOT to Use
- Tek satirlik basit soru/cevap ise
- Skill'in scope'u disindaysa
- Riskli/destructive is ise (ayri onay gerekir)
Red Flags
- Belirsiz hedef/kabul kriteri
- Gerekli dosya/izin/secret eksik
- Ayni adim 2+ kez tekrarlandi
Error Handling
- Gerekli kaynak yoksa → dur, blocker'i raporla
- Komut/akıs hatasi → en yakin guvenli noktadan devam et
- 3 basarisiz deneme → daha uygun skill/agent'a yonlendir
Verification
- Beklenen cikti uretildi
- Yan etki yok (dosya/ayar)
- Gerekli log/rapor paylasildi