name: server-health-check description: 执行服务器健康检查,收集系统状态信息并生成报告。
服务器健康检查
功能
- CPU 使用率 - 检查当前 CPU 负载情况
- 内存使用率 - 检查当前内存占用情况
- 磁盘空间 - 检查各分区的磁盘使用情况
- 运行进程 - 列出当前占用资源最多的前 5 个进程
- 网络连接 - 检查是否存在异常的网络连接
- 服务状态 - 检查关键服务(如 sshd、nginx 等)是否正常运行
工作流程
1. 执行检查命令
使用 top、df、free 等命令收集系统信息:
```bash
# CPU 和内存
top -bn1 | head -5
free -h
# 磁盘空间
df -h
# 进程排名
ps aux --sort=-%cpu | head -6
# 网络连接
netstat -tuln | head -20
```
2. 生成检查报告
将收集到的信息整理成结构化报告,包括:
- 异常指标(如 CPU > 80%、内存 > 90%)
- 潜在风险提示
- 建议的处理措施
3. 输出结果
将检查报告以固定格式输出,供主 Agent 汇总。
告警阈值
- CPU 使用率 > 80%:警告
- 内存使用率 > 90%:警告
- 磁盘使用率 > 85%:警告