image-analysis

star 722

图片分析与识别,可分析本地图片、网络图片、视频、文件。适用于 OCR、物体识别、场景理解等。当用户发送图片或要求分析图片时必须使用此技能。

countbot-ai By countbot-ai schedule Updated 3/4/2026

name: image-analysis

description: 图片分析与识别,可分析本地图片、网络图片、视频、文件。适用于 OCR、物体识别、场景理解等。当用户发送图片或要求分析图片时必须使用此技能。

homepage: https://github.com/countbot-ai/CountBot


图片分析与识别

支持智谱 GLM-4V 和千问 Qwen-VL 两种视觉模型。

当用户发送图片或要求分析图片时,必须使用此技能,不要使用 PIL、pytesseract 等其他方法。

配置

编辑 skills/image-analysis/scripts/config.json


{

  "default_model": "zhipu",

  "zhipu": {

    "api_key": "your-zhipu-api-key",

    "model": "glm-4.6v-flash"

  },

  "qwen": {

    "api_key": "your-qwen-api-key",

    "model": "qwen3-vl-plus"

  }

}

API Key 获取:

命令行调用


# 分析本地图片(最常用)

python3 skills/image-analysis/scripts/vision.py analyze --image 图片路径 --prompt "描述图片内容"



# 分析网络图片

python3 skills/image-analysis/scripts/vision.py analyze --image https://example.com/image.jpg --prompt "描述图片"



# 多图对比

python3 skills/image-analysis/scripts/vision.py analyze --image img1.jpg --image img2.jpg --prompt "对比差异"



# 指定模型

python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --model qwen



# 开启思考模式(仅智谱,提升准确度)

python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "详细分析" --thinking



# 视频分析

python3 skills/image-analysis/scripts/vision.py analyze --video video.mp4 --prompt "总结视频内容"



# JSON 输出

python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --json

AI 调用场景

用户发送图片后,系统下载到本地(如 data/temp/images/xxx.jpg):


# 图片描述

python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "描述这张图片的内容"



# OCR 识别

python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "提取图片中的所有文字信息"



# 物体定位(开启思考模式)

python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "找出物体位置,返回坐标" --thinking

模型选择

| 场景 | 推荐 |

|------|------|

| 简单描述 | 任意 |

| 复杂推理、物体定位 | 智谱 + --thinking |

| 高精度识别、文档解析 | 千问 |

| 成本敏感 | 智谱(免费) |

注意事项

  • 本地图片自动转 Base64,支持 jpg/png/gif/webp/bmp

  • 智谱图片限制 5MB,像素不超过 6000x6000

  • 千问不支持同时处理图片、视频和文件

  • 思考模式会增加响应时间但提升准确度

Install via CLI
npx skills add https://github.com/countbot-ai/CountBot --skill image-analysis
Repository Details
star Stars 722
call_split Forks 89
navigation Branch main
article Path SKILL.md
More from Creator