v36-api-tools

star 1

Execute v36-api CLI scripts for image generation, image editing, and speech-to-text transcription via NanoBanana / GPT-Image-2 / Whisper API. Use this skill when the user asks to generate images from text prompts, edit images with prompts, transcribe audio to text, use NanoBanana/nano-banana-pro/gpt-image-2/whisper models, or requests any v36-api related operations. Triggers on mentions of v36-api, nanobanana, gpt-image-2, whisper, text-to-image, image-to-image, speech-to-text, audio transcription, or when user wants to run v36 CLI scripts. Do NOT use for text-to-speech, video processing, or non-v36 API tasks.

patrickleehua By patrickleehua schedule Updated 5/4/2026

name: v36-api-tools description: Execute v36-api CLI scripts for image generation, image editing, and speech-to-text transcription via NanoBanana / GPT-Image-2 / Whisper API. Use this skill when the user asks to generate images from text prompts, edit images with prompts, transcribe audio to text, use NanoBanana/nano-banana-pro/gpt-image-2/whisper models, or requests any v36-api related operations. Triggers on mentions of v36-api, nanobanana, gpt-image-2, whisper, text-to-image, image-to-image, speech-to-text, audio transcription, or when user wants to run v36 CLI scripts. Do NOT use for text-to-speech, video processing, or non-v36 API tasks. tags: [image-generation, nanobanana, gpt-image-2, whisper, speech-to-text, v36-api, cli]

v36-api-tools

通过 CLI 脚本调用 v36-api 接口,当前支持 NanoBanana / GPT-Image-2 图片生成与编辑,以及 Whisper 语音转文字。

环境要求

  • Python 3.9+
  • 可选依赖: python-dotenv(用于加载 .env)
  • 环境变量: V36_API_KEY(必须), V36_API_BASE(可选,默认 api.gpt.ge)

脚本调用规则

NanoBanana CLI (nanobanana-cli)

脚本路径: scripts/v36-nanobanana-cli.py

文生图 (generate)

python scripts/v36-nanobanana-cli.py generate "<提示词>" --model nano-banana --size "2:3" --response-format url -d <下载目录>

图生图 (edit)

python scripts/v36-nanobanana-cli.py edit "<编辑提示词>" --model nano-banana --response-format url -d <下载目录> -- <图片1> <图片2>

重要: 必须加 --response-format url,避免 API 返回 2MB+ base64 导致传输中断。脚本默认已设为 url。

参数说明

参数 说明 默认值
--model 模型名称(见下表) nano-banana
--size 图片尺寸或比例 -
--aspect-ratio 宽高比(仅 pro/gemini-3+ 系列可用) -
--response-format url 或 b64_json url
--download, -d 图片下载目录 -
--output, -o JSON 输出文件路径 -
--token API Token(优先用环境变量) -
--api-base API 地址 api.gpt.ge

可用模型

模型 系列 size 支持
nano-banana gemini-2.5-flash-image 比例: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
nano-banana-pro gemini-3-pro-image-preview 1K, 2K, 4K
nano-banana-pro-2k gemini-3-pro-image-preview (2K) 比例(尺寸固定 2K)
nano-banana-pro-4k gemini-3-pro-image-preview (4K) 比例(尺寸固定 4K)
gemini-2.5-flash-image gemini-2.5 比例
gemini-3-pro-image-preview gemini-3 1K, 2K, 4K
gemini-3.1-flash-image-preview gemini-3.1-flash 0.5K, 1K, 2K, 4K
gemini-3.1-flash-image-preview-0.5k gemini-3.1-flash (0.5K) 比例
gemini-3.1-flash-image-preview-2k gemini-3.1-flash (2K) 比例
gemini-3.1-flash-image-preview-4k gemini-3.1-flash (4K) 比例

size 使用规则

  • nano-banana / gemini-2.5 系列: --size "2:3" 传比例
  • pro / gemini-3+ 系列: --size 4K --aspect-ratio "16:9" 传分辨率+比例
  • 模型名带 -2k/-4k 后缀的: 不需要传 aspect_ratio,尺寸已固定,只需传比例

GPT-Image-2 CLI (gpt-image-2-chat-cli)

脚本路径: scripts/v36-gpt-image-2-chat-cli.py

/v1/chat/completions 端点,默认流式输出,实时显示生成进度。

文生图 (generate)

python scripts/v36-gpt-image-2-chat-cli.py generate "<提示词>" -d <下载目录>

图生图 (edit)

python scripts/v36-gpt-image-2-chat-cli.py edit "<编辑提示词>" -d <下载目录> -- <图片1> [图片2 ...]

GPT-Image-2 参数说明

参数 说明 默认值
--model 模型名称(见下表) gpt-image-2-c
--max-tokens 最大 tokens 3800
--download, -d 图片下载目录 -
--output, -o JSON 输出文件路径 -
--no-stream 禁用流式输出 默认流式
--token API Token(优先用环境变量) -
--api-base API 地址 api.gpt.ge

GPT-Image-2 可用模型

模型 说明
gpt-image-2-c GPT-Image-2(默认)
gpt-image-2 GPT-Image-2 原始模型名

响应格式

  • 流式模式下实时显示进度(🏃 进度:xx%),完成后输出 ![image](url) markdown 格式的图片链接
  • 图片 URL 自动从 content 中提取,配合 -d 参数下载到本地

Whisper STT CLI (whisper-stt-cli)

脚本路径: scripts/v36-whisper-stt-cli.py

/v1/audio/transcriptions 端点,将音频文件转为文字。

语音转文字 (transcribe)

# 默认中文转录
python scripts/v36-whisper-stt-cli.py transcribe <音频文件>

# 指定英文 + SRT 格式
python scripts/v36-whisper-stt-cli.py transcribe <音频文件> -l en -f srt

# 保存结果到文件
python scripts/v36-whisper-stt-cli.py transcribe <音频文件> -o result.json

Whisper 参数说明

参数 说明 默认值
-l, --language 音频语言(zh/en/de/es) zh
-f, --response-format 输出格式(json/text/srt/verbose_json/vtt) json
--model 模型名称 whisper-large-v3-turbo
-o, --output 输出文件路径 -
--token API Token(优先用环境变量) -
--api-base API 地址 api.gpt.ge

支持的音频格式

格式 扩展名 大小限制
FLAC .flac 25MB
MP3 .mp3 25MB
MP4 Audio .mp4, .m4a 25MB
MPEG .mpeg, .mpga 25MB
OGG .ogg 25MB
WAV .wav 25MB
WebM .webm 25MB

扩展方式

后续新增 v36-api 脚本时:

  1. 将脚本放入 scripts/ 目录
  2. 在本文件中补充对应的调用规则说明
Install via CLI
npx skills add https://github.com/patrickleehua/easily-skills --skill v36-api-tools
Repository Details
star Stars 1
call_split Forks 0
navigation Branch main
article Path SKILL.md
More from Creator
patrickleehua
patrickleehua Explore all skills →