xstranscriber - SKILL.md Agent Skill

name: xs:transcriber description: 音声ファイルをテキストに文字起こしするスキル。mp3/wav/m4a/ogg/flac形式に対応。whisperベースのtranscriber_toolを使用し、tiny/base/small/medium/largeの5つのモデルから精度と速度のバランスを選択可能。長時間音声はバックグラウンド実行に対応。「文字起こしして」「音声をテキストに変換して」で使用。

音声文字起こし

音声ファイルをテキストに変換する。

絶対遵守事項

長時間処理（10分以上の音声）はnohupでバックグラウンド実行

対話フロー

Step 1: ファイル指定

「文字起こしする音声ファイルのパスを指定してください」

対応形式: mp3, wav, m4a, ogg, flac

Step 2: モデル選択

「文字起こしモデルを選択してください」

#	モデル	速度	精度	用途
1	tiny	最高速	最低	テスト用
2	base	高速	標準	推奨
3	small	中速	中精度	バランス
4	medium	低速	高精度	高品質
5	large	最低速	最高	最高品質

Step 3: 実行

出力先は音声ファイルと同じディレクトリに .txt 拡張子で保存。

# 短い音声（10分以下）はフォアグラウンド
uvx transcriber_tool transcribe "[音声ファイルパス]" --model-size [モデル] --output "[出力パス].txt"

# 長い音声（10分以上）はバックグラウンド
nohup uvx transcriber_tool transcribe "[音声ファイルパス]" --model-size [モデル] --output "[出力パス].txt" > /tmp/transcription.log 2>&1 &
echo "PID: $!"

Step 4: 進行状況確認（バックグラウンド実行時）

# ログ確認
tail -f /tmp/transcription.log

# プロセス確認
ps aux | grep transcriber_tool

Step 5: 完了報告

文字起こし完了後、以下を報告:

出力ファイルパス
文字数（概算）
処理時間

処理時間目安

音声長	tiny	base	medium	large
10分	30秒	1分	2-3分	5分
30分	1-2分	2-3分	5-8分	10-15分
60分	2-3分	4-6分	10-15分	20-30分

トラブルシューティング

transcriber_tool未インストール: 初回実行時に自動インストールされる
タイムアウト: nohupでバックグラウンド実行を使用
メモリ不足: より小さいモデル（tiny/base）を使用
日本語の精度が低い: モデルを large にする