📚 文档
最后更新: 2026-02-08使用模型建议
TODO(可选新增截图):模型选型对照示意图(App 2.0) 建议包含:实时模型与 Whisper 模型在“速度/准确率/资源占用”三轴的对比示意。 建议文件名:
model-selection-matrix-v2.png
功能边界
本文用于“模型选型建议”,不替代具体功能文档与参数说明。
适用场景
- 新用户首次选型
- 设备升级或降配后重新评估模型
- 不同业务线(会议、课程、直播)制定统一模板
操作步骤
- 先确定任务类型:文件转录 / 实时转录 / 链接转录 / 全局实时。
- 再评估硬件条件:CPU、GPU、内存、磁盘与平台(Windows/macOS)。
- 从下表选择初始模型,完成基线测试。
- 若结果不理想,再调高级参数或更换模型档位。
| 场景 | 推荐模型(首选) | 备选模型 | 不建议 |
|---|---|---|---|
| 文件转录(通用) | Small / Medium | Large-v3-Turbo | 低配设备直接上 Large-v3 |
| 文件转录(高精度) | Large-v3 / Large-v3-Turbo | Medium + 参数调优 | 低配 CPU 环境长时任务 |
| 实时麦克风 | 实时模型(Sherpa) | Tiny / Base | 大模型 + 低配设备 |
| 应用实时转录 | 实时模型(Sherpa) | Small(GPU可用) | 高并发下强行大模型 |
| 链接转录后转写 | Small / Medium | Large-v3-Turbo | 未校验语言就固定模型 |
| 全局实时(Beta) | 实时模型(Sherpa) | Tiny | 大模型长时间驻留 |
真实场景:团队统一模型基线
当团队成员设备差异较大时,可采用“分层基线”策略:
- 默认基线:
Small/Medium,保证大多数人可稳定运行。 - 高精度通道:为关键任务提供
Large-v3/Turbo。 - 实时通道:会议/口述统一用实时模型,保障低延迟。
这种策略能减少“每个人各跑各的”带来的质量波动与沟通成本。
常见误区
- 误区 1:只看公开 benchmark,不看业务样本。
纠正:最终以真实录音测试结果为准。 - 误区 2:所有场景强行一个模型。
纠正:至少区分“实时优先”和“准确率优先”两类策略。 - 误区 3:模型升级后不复测历史模板。
纠正:每次版本升级后抽样回归,避免策略漂移。
常见问题
Q: 为什么推荐先用 Small/Medium?
A: 在准确率、速度和资源占用之间更平衡,适合大多数桌面设备。
Q: 什么时候才需要 Large-v3?
A: 对准确率要求极高、音频较复杂、且硬件资源充足时。
Q: 实时模型适合所有语言吗?
A: 不同实时模型的语言覆盖不同,建议先用你的目标语言做样本测试。
限制说明
- 模型可用性受账号套餐与版本策略影响。
- 实时类场景更依赖延迟与稳定性,通常优先轻量模型。
- 最终效果以真实业务音频评估结果为准,避免只看理论参数。
- 上线状态:听写功能仍在发布准备阶段,当前不纳入公开可用流程建议。