anomaly-detection - SKILL.md Agent Skill

name: anomaly-detection description: Detect statistical anomalies in log patterns — sudden error rate spikes, unusual latency, memory pressure, or cold start storms. Use when asked about anomalies, trends, spikes, or unusual behavior.

Use this workflow to detect abnormal patterns compared to a baseline.

Use generate_time_report to get error counts per time bucket:

generate_time_report(log_dir="dummy_logs/", hours=24)

This returns error frequencies bucketed by hour.

For each time bucket:

Search REPORT lines where Max Memory Used is > 90% of Memory Size
Pattern: look for Max Memory Used: ([4-9][0-9]{2}|[0-9]{4}) MB when Memory Size is 512 MB

Look for one error type that starts appearing, then other error types follow within minutes
This suggests upstream failure propagation

Do multiple anomaly types coincide? (e.g., error spike + latency spike = downstream issue)
Check if anomaly aligns with deployment time (look for "cold start" pattern)

Save to anomaly_report.md with:

Type	Threshold	Likely Cause
Error spike	>3x baseline in 5min	Deployment, traffic spike, dependency failure
Latency spike	Duration >25s (>83% of 30s limit)	Downstream timeout, cold start
Memory pressure	MaxMem >90% of limit	Memory leak, large payload
Cold start storm	>5 cold starts/min	Scale-out, deployment
Error cascade	3+ error types growing simultaneously	Upstream failure