📚 文档
按设备性能、实时性目标和素材类型选择合适模型,避免在 Whisper、实时模型和 GPU 路线之间反复试错。
📚 文档文档
使用模型建议
设置
转录设置总览截图
这页解决什么问题
这页不讲所有参数,而是直接回答一个高频问题:
我现在这台机器、这个任务,第一轮应该选什么模型?
先按目标选,不要先按模型名选
先看你更在意什么:
- 准确率优先 通常先看 Whisper。
- 低延迟优先 通常先看实时模型。
- 低性能设备先求稳定 优先轻量模型或实时模型。
- 强 GPU 机器,希望实时也更准 Whisper 也值得进入实时场景测试。
| 场景 | 推荐模型(首选) | 备选模型 | 不建议 |
|---|---|---|---|
| 文件转录,想要稳妥的第一条基线 | Whisper Small / Medium | 样本验证后再决定是否升到 Large | |
| 长音频、术语多、最终稿要求高 | Whisper Large 系列 | 只有当设备资源足够时才作为默认值 | |
| 麦克风实时转录,设备没有高性能 GPU | 实时模型 | 如果延迟允许且想提高准确率,再试 Whisper | |
| 应用实时转录,需要长时间稳定运行 | 实时模型 | GPU 很强、样本验证优秀时可尝试 Whisper | |
| 低性能设备 | 轻量实时模型或 Whisper Tiny / Base | 先保可用,再谈升级 | |
| 强 GPU 设备,既要实时也要较高准确率 | Whisper | 前提是你已经验证 RTF 和稳定性都能接受 |
三条最常用的选型规则
1. 先区分文件场景和实时场景
- 文件场景通常更偏向 Whisper
- 实时场景通常更偏向实时模型
- 但这不是绝对规则,强 GPU 设备上的 Whisper 也可能适合实时场景
2. 低性能设备先求稳定
如果机器性能一般,第一目标不是“追求上限”,而是“先把流程稳定跑通”。这时实时模型通常更友好。
3. 团队场景先统一默认值,再开放升级路线
一个实用策略是:
- 先给团队一套默认基线
- 再为关键任务开放更重的 Whisper 路线
- 把样本验证结果写成内部说明,而不是让每个人自己摸索
常见误区与排障
- 只看公开 benchmark,不看真实样本 选型最终要回到你自己的会议、课程、访谈样本。
- 所有场景都强行用一个模型 至少区分“准确率优先”和“实时优先”两条路线。
- 设备升级或降配后不重测 模型策略和硬件强相关,机器变化后要重新做样本验证。
- 把实时模型理解成“只能实时、不能文件” 实时模型更适合实时场景,但并不意味着它不能参与其它工作流。