📚 文档
了解 Audio Note 中 Whisper、实时模型与不同转录场景之间的关系,避免把实时场景、模型路线和内部引擎混为一谈。
Audio NoteWhisper实时模型
概念
设置
转录设置总览截图
这页解决什么问题
先给结论:在 Audio Note 里,最重要的是区分“场景”和“模型路线”。
文件转录、麦克风实时转录、应用实时转录是工作流场景。Whisper和实时模型是模型路线。MLEngine是内部运行非 Whisper 模型的推理引擎,不是用户需要单独选择的第三类模型。
如果把这三层混在一起,很容易出现两个常见误解:
- 误以为“实时转录只能用实时模型”
- 误以为“MLEngine 是用户还要额外理解和选择的模型类型”
Whisper 和实时模型,分别解决什么问题
| 路线 | 更适合什么 | 典型特点 |
|---|---|---|
| Whisper | 文件转录、长音频、准确率优先场景 | 模型档位丰富,质量上限更高;在高性能 GPU 上也能胜任实时转录 |
| 实时模型 | 麦克风实时转录、应用实时转录、低延迟字幕 | 更好的 RTF 表现、延迟更低、通常不依赖 GPU、对设备更友好 |
实时模型 是 Audio Note 对一类更适合实时转录场景的语音模型统称。它们通常在 RTF(Real-Time Factor,实时处理效率)上表现更好,因此更适合边录边转。
实时场景是不是只能选实时模型
不是。
实时转录 是场景,不是模型名。你在实时场景里可以选择:
- 实时模型 适合低延迟、低配置、长时间持续运行的实时工作流。
- Whisper 在有 GPU、且 GPU 性能足够好的设备上,Whisper 也能达到不错的 RTF,同时保留更高的准确率潜力。
这也是为什么 Audio Note 的公开文档会把“实时转录”写成场景,而不是默认把它等同于“实时模型”。
推荐的选择顺序
先从任务目标开始,而不是先从模型名字开始:
- 先判断你是做文件转录,还是做实时转录。
- 再判断你是更看重准确率,还是更看重延迟与资源占用。
- 最后再结合设备条件选择 Whisper 或实时模型。
可以用下面这张表快速判断:
| 你的场景 | 第一选择 | 何时考虑另一条路线 |
|---|---|---|
| 长音频、会议归档、课程整理 | Whisper | 设备较弱、只需要快速草稿时,可先用轻量模型 |
| 麦克风实时字幕、口述输入 | 实时模型 | GPU 很强且希望提高准确率时,可尝试 Whisper |
| 应用音频实时转录 | 实时模型 | 长时间稳定运行没问题,且 GPU 余量充足时,可尝试 Whisper |
| 低性能设备 | 实时模型或 Whisper 轻量档 | 只有当样本验证证明值得时,才升级到更重模型 |
术语说明:为什么还会看到 MLEngine
面向用户的文档里,你主要只需要理解 Whisper 和 实时模型。
MLEngine 只在少数技术说明里出现,用来解释内部实现:
- 它是 Audio Note 内部用于运行非 Whisper 模型的推理引擎。
- 当前实时模型由它承载。
- 它不是你在界面上需要额外理解的“第三类模型”。
这个区分很重要:用户在做的是模型选择,工程上在做的是推理引擎承载。
常见误区
- 把实时场景等同于实时模型 实时模型通常更适合实时场景,但 Whisper 在高性能 GPU 上同样可能是实时场景的优先解。
- 把 MLEngine 当成用户要学会的第三类模型 它是内部实现概念,不是用户工作流概念。
- 只看模型大小,不看任务目标 同样是转录,“边录边转”和“长音频精修”对模型的要求完全不同。