📚 文档
最后更新: 2026-02-08

使用模型建议

TODO(可选新增截图):模型选型对照示意图(App 2.0) 建议包含:实时模型与 Whisper 模型在“速度/准确率/资源占用”三轴的对比示意。 建议文件名:model-selection-matrix-v2.png

功能边界

本文用于“模型选型建议”,不替代具体功能文档与参数说明。

适用场景

  • 新用户首次选型
  • 设备升级或降配后重新评估模型
  • 不同业务线(会议、课程、直播)制定统一模板

操作步骤

  1. 先确定任务类型:文件转录 / 实时转录 / 链接转录 / 全局实时。
  2. 再评估硬件条件:CPU、GPU、内存、磁盘与平台(Windows/macOS)。
  3. 从下表选择初始模型,完成基线测试。
  4. 若结果不理想,再调高级参数或更换模型档位。
场景推荐模型(首选)备选模型不建议
文件转录(通用)Small / MediumLarge-v3-Turbo低配设备直接上 Large-v3
文件转录(高精度)Large-v3 / Large-v3-TurboMedium + 参数调优低配 CPU 环境长时任务
实时麦克风实时模型(Sherpa)Tiny / Base大模型 + 低配设备
应用实时转录实时模型(Sherpa)Small(GPU可用)高并发下强行大模型
链接转录后转写Small / MediumLarge-v3-Turbo未校验语言就固定模型
全局实时(Beta)实时模型(Sherpa)Tiny大模型长时间驻留

真实场景:团队统一模型基线

当团队成员设备差异较大时,可采用“分层基线”策略:

  1. 默认基线:Small/Medium,保证大多数人可稳定运行。
  2. 高精度通道:为关键任务提供 Large-v3/Turbo
  3. 实时通道:会议/口述统一用实时模型,保障低延迟。

这种策略能减少“每个人各跑各的”带来的质量波动与沟通成本。

常见误区

  • 误区 1:只看公开 benchmark,不看业务样本。
    纠正:最终以真实录音测试结果为准。
  • 误区 2:所有场景强行一个模型。
    纠正:至少区分“实时优先”和“准确率优先”两类策略。
  • 误区 3:模型升级后不复测历史模板。
    纠正:每次版本升级后抽样回归,避免策略漂移。

常见问题

Q: 为什么推荐先用 Small/Medium?
A: 在准确率、速度和资源占用之间更平衡,适合大多数桌面设备。

Q: 什么时候才需要 Large-v3?
A: 对准确率要求极高、音频较复杂、且硬件资源充足时。

Q: 实时模型适合所有语言吗?
A: 不同实时模型的语言覆盖不同,建议先用你的目标语言做样本测试。

限制说明

  • 模型可用性受账号套餐与版本策略影响。
  • 实时类场景更依赖延迟与稳定性,通常优先轻量模型。
  • 最终效果以真实业务音频评估结果为准,避免只看理论参数。
  • 上线状态:听写功能仍在发布准备阶段,当前不纳入公开可用流程建议。
Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.