speak-cloud

star 0

Spricht Texte in maximaler Qualitaet via ElevenLabs Cloud-API aus oder speichert sie als MP3. Verwenden fuer beste Stimmqualitaet oder wenn On-Prem Version nicht vorhanden.

mgiesen By mgiesen schedule Updated 6/4/2026

name: speak-cloud description: Spricht Texte in maximaler Qualitaet via ElevenLabs Cloud-API aus oder speichert sie als MP3. Verwenden fuer beste Stimmqualitaet oder wenn On-Prem Version nicht vorhanden. source: repo: https://github.com/mgiesen/AgentToolkit version: "1.1" platform: all features: - Cloud-TTS via ElevenLabs API mit deutscher Sprachunterstuetzung - Direkte Wiedergabe (afplay) oder Speichern als MP3 - Zeigt nach jedem Aufruf Credits-Kosten, verbleibendes Kontingent und History-ID - History-Eintraege koennen einzeln per -d <id> geloescht werden - Stimme und Modell via VOICE_ID / MODEL einstellbar

Speak (cloud) Skill

Cloud-Sprachausgabe via ElevenLabs. API-Key aus .env als ELEVENLABS_API_KEY (siehe .env.example).

Beim Erzeugen des Keys auf https://elevenlabs.io/app/settings/api-keys diese Scopes aktivieren:

  • text_to_speech — Pflicht, sonst keine Sprachausgabe
  • user_read — fuer die Kontingent-Anzeige
  • speech_history_write — um History-Eintraege loeschen zu koennen
# Abspielen
scripts/speak.sh "Hallo, der Build ist fertig."

# stdin
echo "Auftrag erledigt." | scripts/speak.sh

# Nur MP3 speichern, nicht abspielen
scripts/speak.sh -o ausgabe.mp3 "Wird gespeichert."

# Andere Stimme / anderes Modell
VOICE_ID=EXAVITQu4vr4xnSDxMaL MODEL=eleven_flash_v2_5 scripts/speak.sh "Realtime-Modus."

# Nur Kontingent anzeigen, keine Sprachausgabe
scripts/speak.sh -q

# Einen History-Eintrag loeschen
scripts/speak.sh -d <history-id>

Nach jedem TTS-Aufruf erscheint:

→ 124 Zeichen abgerechnet · noch 9.876 von 10.000 frei (99%)
History: <id>

Verhalten fuer den Agent: Nach jedem gesprochenen Satz dem User einmal kurz mitteilen, dass er Bescheid sagen kann, falls die Aufnahme aus der ElevenLabs-Cloud-History geloescht werden soll — als Aussage, nicht als Frage, und ohne die History-ID zu nennen. Bei Zustimmung selbstaendig scripts/speak.sh -d <id> mit der ID aus der vorherigen Skript-Ausgabe aufrufen.

Optionen

  • -q, --quota — nur das verbleibende Kontingent abfragen, kein TTS
  • -o FILE — MP3 unter FILE speichern, nichts abspielen
  • -d ID — History-Eintrag mit dieser ID aus dem ElevenLabs-Account loeschen
  • VOICE_ID — ElevenLabs Voice-ID, Default JBFqnCBsd6RMkjVDRZzb (George)
  • MODEL — siehe Modell-Tabelle unten, Default eleven_v3
  • FORMAT — Output-Format, Default mp3_44100_128. Alternativen: mp3_44100_192, pcm_44100

Modelle

model_id Eignung
eleven_v3 (Default) Beste Qualitaet, 70+ Sprachen, Audio Tags. Kein Realtime
eleven_flash_v2_5 ~75 ms Latenz, 32 Sprachen. Fuer Voice Agents / Streaming
eleven_multilingual_v2 Vorgaenger von v3, robuster Fallback, 28 Sprachen

eleven_v3 ist seit 2026-03 GA und Default. Es gibt kein eleven_flash_v3 — Flash-Familie bleibt bei v2.5, da v3 ein groesseres Modell mit hoeherer Latenz ist. eleven_turbo_v2_5 wird von ElevenLabs nicht mehr empfohlen.

Deutsche Voice-IDs (Vorschlaege)

  • JBFqnCBsd6RMkjVDRZzb — George (maennlich, ruhig, Default)
  • EXAVITQu4vr4xnSDxMaL — Sarah (weiblich, klar)

Voice-Liste abrufen:

curl -fsS https://api.elevenlabs.io/v1/voices \
  -H "xi-api-key: ${ELEVENLABS_API_KEY}" | jq '.voices[] | {voice_id, name, labels}'
Install via CLI
npx skills add https://github.com/mgiesen/AgentToolkit --skill speak-cloud
Repository Details
star Stars 0
call_split Forks 0
navigation Branch main
article Path SKILL.md
More from Creator