oms-kafka-performance - SKILL.md Agent Skill

name: oms-kafka-performance description: 标准 SOP：OceanBase 社区版经 OMS 同步至 Kafka 的延迟、吞吐与调优。涵盖全量/增量并发与限速、KafkaSink、OMS 平台 limitator 与 JVM、源端 OB 与表结构策略；与 observer 日志、OBProxy、单条 SQL 深查 skill 分工明确。

需求	不要用本 skill 代替	应使用
Observer / election / rootservice 日志	本 skill	`observer-log-analysis`（`gather_log` / `analyze_log`）
OBProxy 日志	本 skill	`obproxy-log-analysis`
单条 SQL 计划、trace、锁	本 skill	`observer-sql-analysis`
时段整体 ASH/AWR、主机 perf	本 skill	`obdiag-performance`
官方文档参数、KafkaSink 版本差异	仅口述	`oceanbase-knowledge`（`query` 中带 OMS/OB 版本）

OMS 日志 ≠ analyze_log：analyze_log 仅 observer 侧。OMS / Ghana / CDC 用 Agent 工具 gather_oms_log（封装 obdiag gather oms_log），成功后在同一轮内对 pack 目录 file_list / file_read；遇 .tar.gz / .zip 先 run_shell 解压（需审批）— 流程对齐 obproxy-log-analysis。
config.yml 的 oms 段：必须配置正确，否则 gather_oms_log 会失败。CDC 类 scope（如 cdc、libobcdc）常需 oms_component_id，格式为 IP-进程编号（例如 192.168.1.100-1）；具体值可在 OMS 控制台「组件管理」或 obdiag gather oms_log --help 查看。
gather_oms_log 失败排查：优先检查 config.yml 中 oms 段（主机、端口、SSH 凭据）是否填写完整；其次确认 OMS 机器 SSH 可达且 obdiag 对应版本支持；必要时用 run_shell 在 OMS 机器本地查看日志路径。
若无 Agent、仅终端：可手动执行 obdiag gather oms_log ...；已有 obdiag_gather_pack_* 时直接用 file_list / file_read。

完成标准：能说明当前更怀疑哪一侧（OB / OMS / Kafka），并给出下一步（采日志、看指标、调参建议）。

并发与线程：如调大 limitator.platform.threads.number（例：32→64）。
批处理：如调大 limitator.select.batch.max（例：1200→2400）、limitator.image.insert.batch.max（例：200→400）。
连接数：如调大 limitator.datasource.connections.max（例：50→200）。
JVM：按机器资源增大堆（例：由 -Xms16g -Xmx16g -Xmn8g 调至更大规格）。
经验量级：单并发网络流入约 1–2M、RPS 约千级，视字段与行宽而定。

完成标准：列出已建议项与风险提示（过高并发压垮源端或 Kafka）。

日志压缩，减少 clog：enable_clog_persistence_compress（默认关）建议开启。
合并相关：merge_thread_count（建议 4–16，视核数）、_mini_merge_concurrency（建议 4–8）、minor_merge_concurrency（建议 4–8）。
转储/冻结与内存：关注 freeze_trigger_percentage（默认 70）与 memstore_limit_percentage（默认 50）；高写入时可适当上调。
必要时写入限流：writing_throttling_trigger_percentage（默认 60，降低可缓解写入压力）。
变更提醒：上述参数均需 ALTER SYSTEM SET ... = ...，由 DBA 在维护窗口执行；调整前确认当前值（可通过 db_query 查 gv$ob_parameters）。

说明：Agent 默认 db_query 只读；涉及 ALTER SYSTEM 等变更时输出 建议 SQL / 运维步骤，由 DBA 在变更窗口执行。

输出：瓶颈判断、可执行调优项（分 OMS / Kafka / OB）、下一步取证（日志路径、指标、CLI）。
自检：
- 未用 analyze_log 充当 OMS 日志分析。
- 用户要「采集 + 解读」OMS 日志时，是否在同一轮内调用 gather_oms_log + file_list/file_read（及必要时解压）？
- 改参类建议是否标明 需人工执行 与风险？