xstranscriber

star 130

音声ファイルをテキストに文字起こしするスキル。mp3/wav/m4a/ogg/flac形式に対応。whisperベースのtranscriber_toolを使用し、tiny/base/small/medium/largeの5つのモデルから精度と速度のバランスを選択可能。長時間音声はバックグラウンド実行に対応。「文字起こしして」「音声をテキストに変換して」で使用。

karaage0703 By karaage0703 schedule Updated 3/1/2026

name: xs:transcriber description: 音声ファイルをテキストに文字起こしするスキル。mp3/wav/m4a/ogg/flac形式に対応。whisperベースのtranscriber_toolを使用し、tiny/base/small/medium/largeの5つのモデルから精度と速度のバランスを選択可能。長時間音声はバックグラウンド実行に対応。「文字起こしして」「音声をテキストに変換して」で使用。

音声文字起こし

音声ファイルをテキストに変換する。

絶対遵守事項

  • 長時間処理(10分以上の音声)はnohupでバックグラウンド実行

対話フロー

Step 1: ファイル指定

「文字起こしする音声ファイルのパスを指定してください」

対応形式: mp3, wav, m4a, ogg, flac

Step 2: モデル選択

「文字起こしモデルを選択してください」

# モデル 速度 精度 用途
1 tiny 最高速 最低 テスト用
2 base 高速 標準 推奨
3 small 中速 中精度 バランス
4 medium 低速 高精度 高品質
5 large 最低速 最高 最高品質

Step 3: 実行

出力先は音声ファイルと同じディレクトリに .txt 拡張子で保存。

# 短い音声(10分以下)はフォアグラウンド
uvx transcriber_tool transcribe "[音声ファイルパス]" --model-size [モデル] --output "[出力パス].txt"

# 長い音声(10分以上)はバックグラウンド
nohup uvx transcriber_tool transcribe "[音声ファイルパス]" --model-size [モデル] --output "[出力パス].txt" > /tmp/transcription.log 2>&1 &
echo "PID: $!"

Step 4: 進行状況確認(バックグラウンド実行時)

# ログ確認
tail -f /tmp/transcription.log

# プロセス確認
ps aux | grep transcriber_tool

Step 5: 完了報告

文字起こし完了後、以下を報告:

  • 出力ファイルパス
  • 文字数(概算)
  • 処理時間

処理時間目安

音声長 tiny base medium large
10分 30秒 1分 2-3分 5分
30分 1-2分 2-3分 5-8分 10-15分
60分 2-3分 4-6分 10-15分 20-30分

トラブルシューティング

  • transcriber_tool未インストール: 初回実行時に自動インストールされる
  • タイムアウト: nohupでバックグラウンド実行を使用
  • メモリ不足: より小さいモデル(tiny/base)を使用
  • 日本語の精度が低い: モデルを large にする
Install via CLI
npx skills add https://github.com/karaage0703/ai-assistant-workspace --skill xstranscriber
Repository Details
star Stars 130
call_split Forks 13
navigation Branch main
article Path SKILL.md
More from Creator