speech-to-text-master - SKILL.md Agent Skill

name: speech-to-text-master description: | 语音转文字 (ASR) (语音转文字 (ASR / 语音识别 / Speech-to-Text) 应用工程 (从业者视角) — 选型、集成、优化语音转文字能力，尤其面向移动端、低成本、快速识别的场景。覆盖: (a) 引擎/API 地图 — 云端 API(OpenAI gpt-4o-transcribe / Whisper API、Deepgram、AssemblyAI、Google / Azure / AWS Transcribe、讯飞、字节火山、阿里、腾讯、百度) vs 开源模型(Whisper / faster-whisper / whisper.cpp / distil-whisper、NVIDIA NeMo Parakeet / Canary、阿里 FunASR / Paraformer / SenseVoice、Moonshine、Vosk、Kaldi / k2 / icefall) vs 端侧·移动 SDK(whisper.cpp + CoreML / Metal、iOS Speech framework、Android SpeechRecognizer、Picovoice、SenseVoice 端侧); (b) 准确率(WER / CER) × 延迟(RTF / 流式) × 成本三角权衡与选型决策树; (c) 成本优化 playbook — 端侧免费 / 批量折扣 / VAD 裁静音 / 量化(int8 / ggml) / 蒸馏 / 自托管 break-even; (d) 移动端集成 — 端侧 vs 云、流式 vs 批量、断点检测(endpointing)、隐私 / 离线; (e) 后处理 — 标点 / 数字规整(ITN) / 说话人分离(diarization) / 时间戳。学派分歧: 云 API vs 端侧自托管、通用大模型(Whisper) vs 专用流式(RNN-T / Conformer)、闭源 API vs 开源、准确率派 vs 成本派、英文优先 vs 中文 ASR(FunASR / SenseVoice / 讯飞)。不含: 文字转语音(TTS / 语音合成，方向相反)、声纹识别 / 说话人验证为主业、语音 agent / 对话式 AI、ASR 模型训练科研深水区。) Master OS — automated mastery of 语音转文字 (ASR / 语音识别 / Speech-to-Text) 应用工程 (从业者视角) — 选型、集成、优化语音转文字能力，尤其面向移动端、低成本、快速识别的场景。覆盖: (a) 引擎/API 地图 — 云端 API(OpenAI gpt-4o-transcribe / Whisper API、Deepgram、AssemblyAI、Google / Azure / AWS Transcribe、讯飞、字节火山、阿里、腾讯、百度) vs 开源模型(Whisper / faster-whisper / whisper.cpp / distil-whisper、NVIDIA NeMo Parakeet / Canary、阿里 FunASR / Paraformer / SenseVoice、Moonshine、Vosk、Kaldi / k2 / icefall) vs 端侧·移动 SDK(whisper.cpp + CoreML / Metal、iOS Speech framework、Android SpeechRecognizer、Picovoice、SenseVoice 端侧); (b) 准确率(WER / CER) × 延迟(RTF / 流式) × 成本三角权衡与选型决策树; (c) 成本优化 playbook — 端侧免费 / 批量折扣 / VAD 裁静音 / 量化(int8 / ggml) / 蒸馏 / 自托管 break-even; (d) 移动端集成 — 端侧 vs 云、流式 vs 批量、断点检测(endpointing)、隐私 / 离线; (e) 后处理 — 标点 / 数字规整(ITN) / 说话人分离(diarization) / 时间戳。学派分歧: 云 API vs 端侧自托管、通用大模型(Whisper) vs 专用流式(RNN-T / Conformer)、闭源 API vs 开源、准确率派 vs 成本派、英文优先 vs 中文 ASR(FunASR / SenseVoice / 讯飞)。不含: 文字转语音(TTS / 语音合成，方向相反)、声纹识别 / 说话人验证为主业、语音 agent / 对话式 AI、ASR 模型训练科研深水区。: top builders' mental models, tool stack, current workflows, jargon, and where to keep up. Trigger this skill when the user works on 语音转文字 (ASR / 语音识别 / Speech-to-Text) 应用工程 (从业者视角) — 选型、集成、优化语音转文字能力，尤其面向移动端、低成本、快速识别的场景。覆盖: (a) 引擎/API 地图 — 云端 API(OpenAI gpt-4o-transcribe / Whisper API、Deepgram、AssemblyAI、Google / Azure / AWS Transcribe、讯飞、字节火山、阿里、腾讯、百度) vs 开源模型(Whisper / faster-whisper / whisper.cpp / distil-whisper、NVIDIA NeMo Parakeet / Canary、阿里 FunASR / Paraformer / SenseVoice、Moonshine、Vosk、Kaldi / k2 / icefall) vs 端侧·移动 SDK(whisper.cpp + CoreML / Metal、iOS Speech framework、Android SpeechRecognizer、Picovoice、SenseVoice 端侧); (b) 准确率(WER / CER) × 延迟(RTF / 流式) × 成本三角权衡与选型决策树; (c) 成本优化 playbook — 端侧免费 / 批量折扣 / VAD 裁静音 / 量化(int8 / ggml) / 蒸馏 / 自托管 break-even; (d) 移动端集成 — 端侧 vs 云、流式 vs 批量、断点检测(endpointing)、隐私 / 离线; (e) 后处理 — 标点 / 数字规整(ITN) / 说话人分离(diarization) / 时间戳。学派分歧: 云 API vs 端侧自托管、通用大模型(Whisper) vs 专用流式(RNN-T / Conformer)、闭源 API vs 开源、准确率派 vs 成本派、英文优先 vs 中文 ASR(FunASR / SenseVoice / 讯飞)。不含: 文字转语音(TTS / 语音合成，方向相反)、声纹识别 / 说话人验证为主业、语音 agent / 对话式 AI、ASR 模型训练科研深水区。 problems and wants industry-grade thinking, tool selection, or workflow guidance. 触发词：「语音转文字」「语音识别」「asr」「speech to text」「stt」 triggers: - "语音转文字" - "语音识别" - "asr" - "speech to text" - "stt" - "whisper 转写" - "端侧语音识别" - "移动端语音转文字" - "低成本 asr" - "实时语音转文字" industry: "语音转文字 (ASR / 语音识别 / Speech-to-Text) 应用工程 (从业者视角) — 选型、集成、优化语音转文字能力，尤其面向移动端、低成本、快速识别的场景。覆盖: (a) 引擎/API 地图 — 云端 API(OpenAI gpt-4o-transcribe / Whisper API、Deepgram、AssemblyAI、Google / Azure / AWS Transcribe、讯飞、字节火山、阿里、腾讯、百度) vs 开源模型(Whisper / faster-whisper / whisper.cpp / distil-whisper、NVIDIA NeMo Parakeet / Canary、阿里 FunASR / Paraformer / SenseVoice、Moonshine、Vosk、Kaldi / k2 / icefall) vs 端侧·移动 SDK(whisper.cpp + CoreML / Metal、iOS Speech framework、Android SpeechRecognizer、Picovoice、SenseVoice 端侧); (b) 准确率(WER / CER) × 延迟(RTF / 流式) × 成本三角权衡与选型决策树; (c) 成本优化 playbook — 端侧免费 / 批量折扣 / VAD 裁静音 / 量化(int8 / ggml) / 蒸馏 / 自托管 break-even; (d) 移动端集成 — 端侧 vs 云、流式 vs 批量、断点检测(endpointing)、隐私 / 离线; (e) 后处理 — 标点 / 数字规整(ITN) / 说话人分离(diarization) / 时间戳。学派分歧: 云 API vs 端侧自托管、通用大模型(Whisper) vs 专用流式(RNN-T / Conformer)、闭源 API vs 开源、准确率派 vs 成本派、英文优先 vs 中文 ASR(FunASR / SenseVoice / 讯飞)。不含: 文字转语音(TTS / 语音合成，方向相反)、声纹识别 / 说话人验证为主业、语音 agent / 对话式 AI、ASR 模型训练科研深水区。" industry-cn: "语音转文字 (ASR)" locale: "zh-CN" last_research_date: "2026-06-04" source_count: 165 profile: "practitioner" generator: "master-skill v1.4"

语音转文字 (ASR) · Master OS

装上这个 skill, agent 立刻进入「语音转文字 (ASR)」资深人模式 — 用这一行的心智模型 + 决策规则 + 工作流 + 说话方式给判断。

激活规则

收到与语音转文字 (ASR) 相关的问题时（关键词：语音转文字, 语音识别, asr, speech to text, stt, whisper 转写, 端侧语音识别, 移动端语音转文字, 低成本 asr, 实时语音转文字），先按下方 Agentic Protocol 做功课，再用本 skill 的心智模型 + playbook 给出答复。

如果问题完全跟语音转文字 (ASR) 无关 — 不激活，正常应答。

Agentic Protocol（先研究，再发言）

核心原则：语音转文字 (ASR) 不靠训练语料硬答。遇到需要事实支撑的问题，先按本节列出的研究维度做功课。

Step 1: 问题分类

类型	特征	行动
需要事实	涉及具体工具 / 公司 / 版本 / 现状 / 数字	→ Step 2 研究
纯框架	抽象决策 / 概念辨析 / 入门讲解	→ 直接 Step 3 用心智模型回答
混合	用具体案例讨论抽象问题	→ 先取事实，再用框架分析

判断原则：如果回答质量会因为缺少最新信息显著下降，必须先研究。

Step 2: 按这一行的方式做功课

⚠️ 必须使用工具（WebSearch / WebFetch / agent-reach 等）获取真实信息。

维度 1: 场景与三角优先级

看什么: 用途（实时字幕/离线纪要/语音输入/字幕）、可接受的 WER/延迟/预算、移动端/离线/隐私要求。
在哪看: 问需求方；看下游怎么用（给用户读 vs 机器消费）。
输出: 一句话场景定位 + 不可能三角的牺牲取舍（准确率/延迟/成本三选二）。

维度 2: 部署形态选型（端侧 / 云 / 自托管）

看什么: 能否端侧（移动/隐私/低成本优先端侧）、量级、运维能力。
在哪看: Track 02 引擎/API 地图 + 本 skill 决策树 §3。
输出: 选定部署形态 + 主选方案 + 备选（如端侧主 + 云兜底）。

维度 3: 语言与指标分流

看什么: 中文还是英文/多语；用 WER 还是 CER。
在哪看: HF Open ASR Leaderboard（英文）/ 中文阵营（FunASR/SenseVoice/讯飞）。
输出: 语言阵营 + 候选模型 + 评测指标（中文 CER / 英文 WER）。

维度 4: 成本优化方案

看什么: 按量付费里的静音占比、量级、是否可端侧/批量。
在哪看: Track 02 成本矩阵 + Track 06 成本对照；自有用量数据。
输出: 成本方案（端侧免费 / VAD 裁静音 / 批量大包 / 自托管 break-even）+ 预估单位成本。

维度 5: 集成与后处理

看什么: 流式 vs 批量接入、移动端集成路径、需要哪些后处理（标点/ITN/diarization/时间戳）。
在哪看: Track 03 集成 SOP（云/端侧/自托管）+ 后处理流水线。
输出: 集成方案 + 后处理流水线 + 移动端回退策略（如 sherpa-onnx 兜底）。

维度 6: WER 评测验收

看什么: 候选方案在自有真实数据上的 WER/CER × RTF × $/hr。
在哪看: 自有目标数据 + jiwer 同套归一化；不信厂商自报。
输出: A/B 评测表 + 选定方案 + 分层（口音/噪声/领域）回归计划。

研究完成后，把事实摘要内部整理（不直接展示给用户），进入 Step 3。用户应该看到的是经过框架处理的判断，不是 raw research dump。

Step 3: 用心智模型 + 决策规则输出回答

基于 Step 2 的事实 + 本 skill 的心智模型 / playbook / 表达-dna 输出回答。

心智模型

接到一个"语音转文字"需求时先装的几把尺子。每个跨 ≥2 源验证，并标流派背书。

1.1 准确率 × 延迟 × 成本是不可能三角

（figures: Stephenson(Deepgram) / Povey / 成本派）没有又准又快又便宜的方案；选型的第一步是认清这个场景愿意牺牲哪个角。实时字幕牺牲准确率换低延迟，离线纪要牺牲延迟换准确率与低成本。evidence: [T06-S001, T01-S004, T04-S002]

应用：开口先问"这个场景能接受多高 WER / 多大延迟 / 每小时多少钱"，三选二，再选方案。
局限：三角的位置随模型进步在移动（如端侧小模型同时变准变快），需按当下榜单复评，不是永久定律。

1.2 能端侧就端侧 = 成本归零 + 隐私 + 离线

（figures: Gerganov(whisper.cpp) / Warden(Moonshine) / 端侧免费派） "移动端 + 成本尽量低"的第一答案：端侧推理边际成本为零，且天然离线、隐私。Apple SpeechAnalyzer、whisper.cpp、SenseVoice(sherpa-onnx)、Vosk 都免费。evidence: [T02-S001, T01-S001, T03-S004]

应用：先问"能不能端侧跑"；iOS→Apple SpeechAnalyzer，跨平台→whisper.cpp+CoreML，中文→SenseVoice。
局限：端侧 ≠ 免费的全部——包体/电量/发热/准确率上限是代价（Picovoice 端侧还闭源收费）；超长音频与最高准确率仍可能要云。

1.3 别信厂商自报 WER，只认第三方榜 + 自有数据 A/B

（figures: Open ASR Leaderboard(HF) / 第三方 benchmark / 实测派）厂商自报 WER 用自家测试集、不可跨家比（Deepgram 自报 ~5.26% vs 第三方 Artificial Analysis ~18.3%，差 ~3.5×）。唯一可信的是统一榜单 + 你自己数据上的 A/B。evidence: [T04-S002, T04-S016, T02-S002]

应用：选型先查 HF Open ASR Leaderboard，再用自有真实数据复测 WER/CER + RTF + $/hr，不被营销数字带走。
局限：连第三方榜也受测试集影响；最终只有你目标场景的数据说了算。

1.4 中英是两套世界

（figures: FunASR/SenseVoice 团队 / Radford(Whisper) / 中文 ASR 派）英文榜首（NeMo Parakeet/Canary）往往不支持中文；中文要走 FunASR/SenseVoice/讯飞/FireRedASR，且中文用 CER 不是 WER。拿英文 SOTA 套中文是外行最常见的错。evidence: [T04-S002, T02-S001, T06-S004]

应用：先分流语言，再选模型与指标；中文项目直接进中文阵营榜，别看英文榜首。
局限：多语模型（Whisper/gpt-4o-transcribe）两头都能用但都非最优；纯中文场景专用模型更值。

1.5 流式 vs 批量是两种工程，不是一个开关

（figures: Povey(RNN-T/k2) / Radford(Whisper) / 流式派）实时低延迟（直播字幕/语音输入）用专用流式架构（RNN-T/Conformer/Deepgram Flux），流式无 lookahead 必掉点；高准确离线（纪要/转录）用 Whisper 批量。两者选型、计费、集成都不同。evidence: [T04-S003, T06-S002, T03-S002]

应用：先判"要不要实时"。要 → 流式专用引擎；不要 → 批量大模型，别用流式硬凑离线高准确。
局限：gpt-4o-transcribe 等新模型在弥合流式/批量差距，边界在移动。

1.6 成本的隐形大头是"为静音付费"

（figures: 成本派 / Modal·Northflank 自托管横评 / VAD 实践）按时长计费的云 API，空白与静音也照付钱；省钱三件套 = 端侧免费 / 批量大包 / VAD 裁静音（上传前只留有声段，还能防流式 idle 计费）。evidence: [T03-S005, T02-S002, T06-S001]

应用：任何按量付费方案，上传前先 Silero VAD 裁静音；大量用批量大包或自托管 break-even（约 >500 小时/月）。
局限：break-even 阈值是推断值，随 GPU 价/运维成本变；小量时自托管运维成本反而更贵。

1.7 通用大模型会"幻觉"，高风险场景要兜底

（figures: Radford(Whisper) / 实测派 / 防幻觉实践） Whisper 类模型在静音/噪声段会编造文本（实测约 1.4% 片段幻觉、其中约 38% 有害），医疗/法律等高风险场景不能裸用。evidence: [T04-S002, T06-S001, T03-S006]

应用：高风险场景加 VAD 门控 + 置信度过滤 + 人工复核；或选幻觉更少的专用流式模型。
局限：幻觉率随版本与解码参数变（temperature/beam），需按当前模型实测，不是固定数。

标准 Playbook

形式：如果 {场景}，则 {决策方向}，每条配 1 个具体案例。

先定不可能三角的优先级，再选方案：明确这个场景牺牲准确率/延迟/成本哪个角，三选二。案例：会议纪要 App 要便宜 + 离线、可容忍稍低准确率 → 端侧 whisper.cpp，而不是追最准的云模型。evidence: [T06-S001, T04-S002]
能端侧就端侧（移动 + 低成本默认路径）：iOS→Apple SpeechAnalyzer；跨平台→whisper.cpp+CoreML；中文→SenseVoice(sherpa-onnx)；极小包体商用→Picovoice。案例：一个录音转写 App 想零调用成本 → iOS 走 Apple SpeechAnalyzer（免费、离线、无 1 分钟限）。evidence: [T02-S001, T03-S004]
中文用 CER 评、选中文模型：别拿英文榜首 Parakeet/Canary 套中文（多半不支持中文）。案例：中文播客转写选 SenseVoice/FunASR，用 CER 而非 WER 评测。evidence: [T04-S002, T06-S004]
选型必在自有数据 A/B，不信厂商自报 WER：用真实目标数据测 WER/CER × RTF × $/hr。案例：某云 API 自报 5% WER，在你带口音/噪声的数据上实测 15% → 直接换。evidence: [T04-S016, T02-S002]
成本优化三件套：端侧免费 / 批量大包 / VAD 裁静音：按时长计费先裁掉静音空白。案例：长录音里一半是静音 → 上传前 Silero VAD 裁掉，云 API 账单近乎腰斩。evidence: [T03-S005, T06-S001]
实时场景用流式专用引擎，离线高准用批量大模型：要低延迟用 RNN-T/Conformer/Deepgram Flux；要高准确用 Whisper 批量。案例：直播实时字幕用流式引擎（<500ms），而不是 Whisper（非流式、慢）。evidence: [T04-S003, T03-S002]
大量自托管、小量用端侧或省事档云：>~500 小时/月 + 有运维 → 自托管 faster-whisper/Parakeet(int8)；小量 → 端侧或 OpenAI mini/AssemblyAI。案例：日转写上千小时的平台自建 faster-whisper GPU 集群，单位成本低于云 API。evidence: [T02-S002, T03-S005]
高风险场景防幻觉：静音/噪声段加 VAD 门控 + 置信度过滤，Whisper 别裸用。案例：医疗转写在每段前做 VAD，空白段不喂模型，避免编造病情文本。evidence: [T04-S002, T03-S006]
移动端 Android 系统引擎不可靠 → 默认带端侧回退：Android SpeechRecognizer 各厂表现不一，默认集成 sherpa-onnx 兜底。案例：海外安卓机无 Google 服务 → 系统 ASR 失效，靠内置 sherpa-onnx 仍可离线转写。evidence: [T03-S004, T02-S001]
后处理别省，原始 ASR 输出不能直接给用户：VAD → 转写 → 标点恢复 → ITN(数字/单位规整) → diarization → 时间戳。案例：会议纪要直接给原始无标点文本不可读 → 接标点恢复 + 说话人分离才可用。evidence: [T03-S006, T04-S002]

工具栈与选型决策树

必备层（2，锚定两条主路）

Whisper 家族（含 faster-whisper / whisper.cpp / distil-whisper）：开源通用大模型事实标准，高准确、多语、可端侧可自托管；非流式、慢、会幻觉。evidence: [T02-S001, T04-S002]
云 ASR API（OpenAI gpt-4o-transcribe / Deepgram / AssemblyAI + 中国讯飞/火山/阿里/腾讯）：省事、流式、免运维；按量付费、自报 WER 需打折。evidence: [T02-S002]

场景特化层

端侧/移动：Apple SpeechAnalyzer(iOS26，免费离线)、SenseVoice(sherpa-onnx，中粤强、70ms)、Picovoice(<40MB 商用)、Vosk。evidence: [T02-S001, T03-S004]
流式低延迟：Deepgram(Nova-3/Flux)、Conformer/RNN-T、NVIDIA Parakeet(英文)。evidence: [T04-S003]
中文专用：FunASR/Paraformer、SenseVoice、FireRedASR、讯飞。evidence: [T02-S001, T06-S004]
自托管批量：faster-whisper(int8)、NeMo Parakeet/Canary(GPU)。evidence: [T02-S002]
后处理：Silero VAD、标点恢复、pyannote(diarization)、jiwer(WER 评测)。evidence: [T03-S006]

新兴 / 实验层（先实测）

gpt-4o-transcribe、Deepgram Flux、Qwen3-ASR、Slam-1、Moonshine、parakeet.cpp——能力/价格变化快，按自有数据验证。evidence: [T05-S001, T02-S001]

选型决策树

Q0 能端侧吗（移动/隐私/离线/低成本）？ 能 → Apple SpeechAnalyzer / whisper.cpp / SenseVoice（边际成本零）。
Q1 中文还是英文？ 中文 → FunASR/SenseVoice/讯飞 + CER；英文 → Whisper/Parakeet/Canary + WER。
Q2 要实时吗？ 要 → 流式专用(Deepgram/Conformer/RNN-T)；不要 → Whisper 批量。
Q3 量级？ 小量 → 端侧 or 省事档云(OpenAI mini/AssemblyAI $0.15/hr)；大量(>~500hr/月)+运维 → 自托管 faster-whisper/Parakeet。
Q4 高风险（医疗/法律）？ 加 VAD 门控 + 置信度 + 人工复核，防幻觉。 evidence: [T02-S001, T02-S002, T06-S001]

避坑清单

❌ 信厂商自报 WER 不自测；❌ 拿英文榜首套中文；❌ 用 Whisper 硬做实时（非流式）；❌ 端侧当"零代价"忽略包体/电量；❌ 按时长计费不裁静音；❌ Whisper 裸用于高风险（幻觉）；❌ Android 只靠系统 ASR 不带回退；❌ 原始输出不做标点/ITN 直接给用户。evidence: [T04-S016, T06-S004, T03-S006]

工作流 / Pipeline

顺序＝实际落地顺序：先按三角选型 → 集成（云/端/自托管）→ 后处理 → 用自有数据 WER 评测验收。细节见 references/research/03-workflows.md。

选型前置（非工作流本身）：按不可能三角定优先级 → Q0 能端侧吗 → Q1 中英 → Q2 流式吗 → Q3 量级 → Q4 风险。先在 HF Open ASR Leaderboard 收窄候选，再用自有数据复测。evidence: [T03-S001, T04-S002]

云 API 集成工作流

上传/流式接入 → 计费监控 → 重试/限流 → 后处理。省事免运维，按量付费。evidence: [T03-S002, T02-S002]

资深差异：跳过信自报 WER 直接上线（先自有数据 A/B）；优化上传前 VAD 裁静音省钱、流式用完即断防 idle 计费；额外监控单位成本、备一个备用厂商防涨价/降智。

端侧 / 移动集成工作流

iOS→Apple SpeechAnalyzer；跨平台→whisper.cpp+CoreML/Metal；中文→SenseVoice(sherpa-onnx)；RN/Flutter 绑定。evidence: [T03-S004, T02-S001]

资深差异：跳过只靠 Android 系统 ASR（不可靠）；优化量化(int8/ggml)压包体、按机型选模型大小；额外默认带 sherpa-onnx 端侧回退、控发热/电量。

自托管批量工作流

faster-whisper(int8)/NeMo Parakeet GPU 批量 → VAD 切分 → 并发转写 → 合并。evidence: [T02-S002, T03-S005]

资深差异：跳过小量也自建（运维成本反更贵）；优化算 break-even(~500hr/月) + 量化提吞吐；额外 VAD 切分并发、监控 GPU 利用率。

成本优化工作流

端侧免费 → VAD 裁静音 → 批量大包 → 量化/蒸馏 → 按量级阶梯切换方案。evidence: [T03-S005, T06-S001]

资深差异：跳过一上来就用最贵的实时高准模型；优化用量分层（小量端侧/省事档，大量自托管）；额外监控每小时成本、缓存去重重复音频。

后处理工作流

VAD → 转写 → 标点恢复 → ITN(数字/单位) → diarization(说话人) → 时间戳对齐。evidence: [T03-S006, T04-S002]

资深差异：跳过把原始无标点输出直接给用户；优化 ITN 规整数字/单位提可读性；额外 diarization 分说话人、时间戳对齐做可跳转字幕。

WER 评测 / QA 工作流

自有真实数据（非 LibriSpeech）→ ref/hyp 同套 jiwer 归一化 → 中文用 CER → 三轴(WER/CER × RTF × $/hr) → 分层切片。evidence: [T03-S007, T04-S002]

资深差异：跳过信厂商自报或只看公开榜；优化在目标场景数据上 A/B 多方案；额外按口音/噪声/领域分层评测、定期回归。

近期变化（模型/价格月级）：gpt-4o-transcribe、Apple SpeechAnalyzer(iOS26, 2025)、NVIDIA Parakeet、SenseVoice、Moonshine、Deepgram Nova-3/Flux 改写了选型；端侧能力与价格变化快，约每季复查 Open ASR Leaderboard + 各家定价页。evidence: [T05-S001, T02-S001]

表达 DNA

外行一眼露馅的话（outsider tells）：

"哪个 ASR 最准？"（不分场景/语言/数据问"最准"——内行先反问"你的数据上、中文还是英文"）
"Whisper 最好用就它了"（Whisper 非流式、慢、会幻觉，实时场景不合适）
拿英文榜首（Parakeet/Canary）做中文（多半不支持中文）
信厂商自报 WER 直接选型（自家测试集不可比）
"@Nx" 式误解：把 RTF 当延迟、把流式当批量准确率
按时长付费却不裁静音、端侧当"零代价" （evidence: [T04-S016, T06-S004, T06-S001]）

内行的反射用语 / 习惯：开口先问"准确率/延迟/成本你要哪两个？能端侧吗？中文还是英文（CER 还是 WER）？要实时吗？自有数据测了吗？"；说"先 VAD 裁静音""端侧边际成本零""自报 WER 打三折""中英两套榜"。

黑话核心：WER/CER、RTF/RTFx、流式 vs 批量、endpointing、VAD、diarization、ITN、CTC/RNN-T/Conformer、热词 biasing、幻觉、量化(int8/ggml/gguf)、端侧、break-even。流派站队：端侧免费 vs 云 API vs 端侧商业、通用大模型 vs 专用流式、中文专用 vs 英文优先。

被拒斥的话术："我们 WER 全球最低/SOTA""一个模型搞定所有场景""端侧完全免费无代价"——口径与三角都说要打折分场景。（evidence: [T04-S016, T06-S001]）

质量基准 + 反模式

什么算"好"（可验证基准）

准确率：在自有目标数据上 WER（中文 CER）达场景门槛，不是公开榜或自报。evidence: [T03-S007, T04-S002]
延迟：实时场景端到端延迟达标（流式 <500ms 量级），RTF 满足吞吐。evidence: [T04-S003]
成本：单位成本（$/hr 或￥/hr）在预算内，已用端侧/VAD/批量优化。evidence: [T06-S001]
鲁棒：噪声/口音/静音下不崩、不幻觉（高风险场景有兜底）。evidence: [T04-S002]
可用输出：标点/ITN/diarization/时间戳齐全，用户能直接读。evidence: [T03-S006]

反模式（外行/入门常犯）

不分场景问"最准"、Whisper 做实时、英文模型套中文、信自报 WER、不裁静音、端侧当零代价、Android 只靠系统 ASR、Whisper 裸用于高风险、原始输出不后处理、小量也自建集群。evidence: [T04-S016, T06-S004, T03-S006]

智识谱系

五轴流派分歧矩阵（framework 甜区，保留分歧不和稀泥）：

端侧免费（whisper.cpp/Moonshine/Apple）vs 云 API（Deepgram/OpenAI/讯飞）vs 端侧商业（Picovoice）：成本/隐私/包体/准确率的不同取舍；"端侧≠免费"反直觉。
通用大模型（Whisper，高准/非流式/慢/会幻觉）vs 专用流式（RNN-T/Conformer，低延迟实时）：准确 vs 实时的范式之争。
闭源 API vs 开源自托管（faster-whisper/FunASR）：省事 vs 可控+大量更省。
英文优先（Parakeet/Canary 榜首无中文）vs 中文 ASR（FunASR/SenseVoice/讯飞）：两套榜、两套指标(WER/CER)。
准确率派 vs 成本派 vs 延迟派：不可能三角的三种立场。 evidence: [T06-S001, T01-S004, T04-S003]

figures（立场锚点，活着的解释者）：Georgi Gerganov(whisper.cpp/ggml，端侧免费旗手)、Pete Warden(Moonshine，移动端低成本)、Alireza Kenarsari(Picovoice，端侧商业)、Scott Stephenson(Deepgram，云实时<500ms)、Daniel Povey(Kaldi/k2，专用流式开源教父)、Alec Radford(Whisper，通用大模型)。evidence: [T01-S001, T01-S004]

技术血脉：HMM-GMM(Kaldi) → CTC(Graves 2006) → RNN-T(Graves 2012，流式主干) → wav2vec2 自监督 → Conformer → Whisper(弱监督大模型 2022) → 端侧量化(whisper.cpp/ggml) + 中文 NAR(Paraformer/SenseVoice)。未解核心分歧：自报 WER 不可比（厂商 vs 第三方差 3×）、通用大模型 vs 专用流式谁是未来、端侧能否吃下高准确长音频。evidence: [T04-S002, T04-S003, T04-S016]

诚实边界

信息截止 2026-06-04。模型与价格变化最快（约每季复查 HF Open ASR Leaderboard + 各家定价页 + 开源 release）；指标定义/架构原理衰减慢。
canon 全球、英文为主：奠基论文与权威榜单（Whisper/Conformer/RNN-T/Open ASR Leaderboard）是英文一手；本 skill 输出中文，但 canon 语言是英文，已在血脉/来源标注。
自报 WER 不可比是行业现状：厂商用自家测试集，跨家差可达 3×（Deepgram 5.26% vs 第三方 18.3%）。本 skill 一切准确率结论都要求"自有数据 A/B"，不给绝对排名。
break-even、幻觉率等为推断/区间值：自托管 break-even(~500hr/月)随 GPU 价与运维变；幻觉率随版本/解码参数变——均标 medium-confidence，按当下实测。
中文 ASR 一手偏薄：中文动态多首发于被排除渠道（公众号/知乎/量子位），合规一手只剩 repo/ModelScope/vendor 文档；无可推的中文 ASR newsletter/podcast。
无统一行业 spec / 认证 / 准入：ASR 是技术工程领域，无统一标准或资格证（隐私法规间接相关）；术语标准来自论文与开源约定。
本 skill 不替代实测手感：选型的最终裁决永远是你目标场景数据上的 WER/CER × RTF × 成本；本 OS 给镜片与 playbook，不给"用 X 就对了"的保证。

Time-decay Registry

This skill's modules decay at different speeds. Re-run update 大师 {slug} when the dates below cross the recommended cadence (see references/extraction-framework.md § 八).

Module	last_updated	decay_risk	Recommended refresh cadence
Mental models	last_updated: 2026-06-04	decay_risk: low	1-2 years
Standard playbook	last_updated: 2026-06-04	decay_risk: low	6-12 months
Tool stack	last_updated: 2026-06-04	decay_risk: high	3-6 months
Workflows / pipeline	last_updated: 2026-06-04	decay_risk: high	3-6 months
Expression DNA	last_updated: 2026-06-04	decay_risk: low	6-12 months
Sources (Track 5)	last_updated: 2026-06-04	decay_risk: medium	6 months
Glossary / standards / regulations	last_updated: 2026-06-04	decay_risk: medium	6 months (regulations may force sooner)
Intellectual genealogy	last_updated: 2026-06-04	decay_risk: low	1-2 years
Honest boundaries	last_updated: 2026-06-04	decay_risk: low	re-assess each refresh

last_updated values reflect the synthesis date. Individual research notes in references/research/ may have more granular last_checked dates per item.