open-llm-vtuber - SKILL.md Agent Skill

name: open-llm-vtuber description: "Compañero de voz con avatar Live2D: conversación real-time con LLMs, percepción visual, multi-LLM/TTS/ASR, desktop pet mode, completamente offline. 9.6k⭐." url: https://github.com/Open-LLM-VTuber/Open-LLM-VTuber category: ia fecha: 2026-06-05

ia (companion IA / voz / avatar)

Open-LLM-VTuber es un companion IA con interacción por voz en tiempo real y avatar Live2D. Puede correr completamente offline en cualquier PC.

Características principales:

🖥️ Cross-platform: macOS, Linux, Windows
🎤 Voz real-time: conversación por voz sin auriculares (AI no escucha su propia voz)
👁️ Percepción visual: cámara, screen recording, screenshots
🫱 Touch feedback: interacción por clicks y arrastres
😊 Live2D expressions: mapeo de emociones controlado por backend
🐱 Pet mode: fondo transparente, siempre visible, click-through
💭 Inner thoughts: ver pensamientos de la IA sin que los hable
🗣️ AI proactive speaking: la IA puede iniciar conversación
💾 Chat persistence: historial de conversaciones

Modelos soportados:

LLM: Ollama, OpenAI, Gemini, Claude, Mistral, DeepSeek, GGUF, LM Studio, vLLM...
ASR: sherpa-onnx, FunASR, Faster-Whisper, Whisper.cpp, Groq Whisper, Azure...
TTS: sherpa-onnx, pyttsx3, MeloTTS, Coqui-TTS, GPTSoVITS, Bark, CosyVoice, Edge TTS...

docker run -p 7860:7860 open-llm-vtuber/open-llm-vtuber

# config.yaml
llm:
  provider: ollama
  model: llama3
  base_url: http://localhost:11434

tts:
  provider: sherpa-onnx
  model: vits-piper-es

# Iniciar en modo desktop pet (fondo transparente)
python main.py --pet-mode

v2.0 en desarrollo (rewrite completo) — v1 sigue con bugs pero funcional
Para uso remoto (servidor en PC, acceso desde móvil) se requiere HTTPS (Web Audio API necesita secure context)
Long-term memory temporalmente removido (en desarrollo para v2)
Microphone requiere HTTPS o localhost para funcionar (Web Audio API restriction)
Live2D models requieren configuración manual para importar custom models

2026-06-05 (trending diario + 9.6k⭐)