training-orchestrator - SKILL.md Agent Skill

name: training-orchestrator description: Orchestrate personal model training — SFT, DPO, and STT fine-tuning via mlx-tune on Apple Silicon. tags: - training - self-improvement metadata: author: fae version: "2.0"

This skill manages the personal model training pipeline using mlx-tune — a native MLX fine-tuning library with Unsloth-compatible API.

Mode	Script	Purpose
SFT	`train`	Supervised fine-tuning on conversation episodes
DPO	`train_dpo`	Preference learning from user corrections
STT	`train_stt`	Speech-to-text adaptation for Qwen3-ASR
Keyword	`train_keyword`	Barge-in keyword classifier (micro 1D-CNN)
Speech Verifier	`train_speech_verifier`	Speech/music/noise classifier (micro 1D-CNN)

export_data: Export conversation episodes to train.jsonl/valid.jsonl (80/20 split)
train: SFT fine-tuning via mlx-tune SFTTrainer (Qwen3.5 models)
train_dpo: DPO preference training via mlx-tune DPOTrainer (uses correction pairs)
train_stt: STT fine-tuning via mlx-tune FastSTTModel (Qwen3-ASR)
evaluate: Benchmark trained checkpoint — reads train_metrics.json or falls back to log parsing
propose: Generate human-readable comparison report for the user
check_status: Check if training is in progress
deploy: Activate a trained adapter (requires user approval)
rollback: Revert to previous adapter
train_keyword: Train 5-class keyword classifier (interrupt/wake/speech/silence/noise)
train_speech_verifier: Train 3-class speech verifier (speech/music/noise)

Auto-selection matches Fae's production LLM model tier.

Preset	Steps	Batch	Grad Accum	LR	LoRA Rank	Seq Length
smoke	10	1	1	1e-4	8	512
light	50	2	2	5e-5	16	1024
standard	200	4	4	2e-5	16	2048
deep	500	4	4	1e-5	32	2048