📚 文档
最后更新: 2026-02-08概念

TODO(截图替换):模型设置页(App 2.0) 建议包含:模型分类标签(Whisper/实时)、下载状态、默认模型选择区、GPU 引擎设置入口。 建议文件名:
settings-models-v2.png
功能边界
Audio Note 的模型能力分为三类:
- Whisper 官方模型(离线高精度)
- 社区模型(特定语言/场景增强)
- 实时模型(低延迟、实时反馈)
模型本身只决定“识别能力与速度”,不直接决定业务流程(如链接转录、监控、工作空间)。
适用场景
- 设备性能一般、追求快速出字:优先实时模型或 Whisper Tiny/Base
- 追求准确率(会议、课程、播客):优先 Whisper Small/Medium/Large
- 以英语为主、速度优先:优先
.en系列或 Distil 英文模型 - 长音频、术语较多:优先 Large-v3/Large-v3-Turbo,并结合高级参数调优
操作步骤
- 打开
设置 > 转录,进入模型库。 - 按目标场景选择模型类别(Whisper / 实时)。
- 下载模型并确认存储路径可用。
- 在首页启动转录任务,观察速度与准确率。
- 不满足预期时,按下列顺序调优:
- 更换模型体积档位
- 调整语言与高级参数
- 在 GPU 可用时启用加速
Whisper 官方模型(当前可用)
- Tiny / Tiny English
- Base / Base English
- Small / Small English
- Medium / Medium English
- Large-v2
- Large-v3
- Large-v3-Turbo
社区模型(当前内置)
- Distil Small English
- Distil Medium English
- Distil Large V2 English
- Distil Large V3
实时模型(当前内置)
- Sherpa ncnn(旧版本):Chinese-English / Chinese / English / French
- Sherpa ONNX(新版本):Chinese-English / Chinese / English / French / Russian / Korean / Japanese
以上列表以当前应用版本内置模型为准,后续版本可能增减。
名词解释(建议先读)
- Tiny / Base / Small / Medium / Large:模型体积档位,通常体积越大准确率更高、速度更慢。
- Turbo:在速度和质量之间做了工程优化的版本,常用于大模型提速。
- .en 模型:针对英语优化,英语场景通常更快更稳。
- Community 模型:社区训练的变体模型,优势和风险都更依赖真实样本验证。
更多建议可查看使用模型建议。
真实场景:从“先能用”到“可复用”
很多团队第一次上手会直接选一个“大模型”开跑,结果是首轮等待时间过长,成员很快放弃统一流程。更稳妥的做法是:
- 先用
Small/Medium建立可复用基线(保证大家都能稳定跑通)。 - 对关键素材(例如对外发布、法务存档)再升级到
Large-v3/Turbo。 - 把“模型选择 + 参数模板”写入团队文档,减少个人经验差异。
这样做的好处是:日常效率不受影响,关键任务又能保证准确率。
常见问题
Q: 实时模型是不是一定比 Whisper 快?
A: 在低延迟场景通常更快,但最终速度还取决于设备与参数配置。
Q: 社区模型一定更准吗?
A: 不一定。社区模型通常针对特定语言或领域优化,需要按你的真实样本验证。
Q: 模型越大越好吗?
A: 大模型通常准确率更高,但显著增加资源占用与处理时延。
常见误区
- 误区 1:只看模型体积,不看任务类型。
纠正:实时场景优先低延迟模型,离线审校再考虑更大体积。 - 误区 2:一次性全员切换到同一大模型。
纠正:先用一套“默认基线 + 特殊升级”策略,兼顾稳定性和效率。 - 误区 3:不做样本验证直接长期使用。
纠正:每次换模型都用真实音频做 A/B 对比,再决定是否替换。
限制说明
- 状态:稳定(非 Beta),如后续进入灰度会在应用内标注。
- 功能开关受账号能力与版本策略影响,部分模型可能仅对特定套餐开放。
- 不同平台可用引擎不同:Windows 优先 CUDA/Vulkan,macOS 优先 CoreML。
- 模型下载与切换需要磁盘空间;大模型对内存与显存要求较高。