📚 文档
最后更新: 2026-02-08

概念

TODO(截图替换):模型设置页(App 2.0) 建议包含:模型分类标签(Whisper/实时)、下载状态、默认模型选择区、GPU 引擎设置入口。 建议文件名:settings-models-v2.png

功能边界

Audio Note 的模型能力分为三类:

  • Whisper 官方模型(离线高精度)
  • 社区模型(特定语言/场景增强)
  • 实时模型(低延迟、实时反馈)

模型本身只决定“识别能力与速度”,不直接决定业务流程(如链接转录、监控、工作空间)。

适用场景

  • 设备性能一般、追求快速出字:优先实时模型或 Whisper Tiny/Base
  • 追求准确率(会议、课程、播客):优先 Whisper Small/Medium/Large
  • 以英语为主、速度优先:优先 .en 系列或 Distil 英文模型
  • 长音频、术语较多:优先 Large-v3/Large-v3-Turbo,并结合高级参数调优

操作步骤

  1. 打开 设置 > 转录,进入模型库。
  2. 按目标场景选择模型类别(Whisper / 实时)。
  3. 下载模型并确认存储路径可用。
  4. 在首页启动转录任务,观察速度与准确率。
  5. 不满足预期时,按下列顺序调优:
    • 更换模型体积档位
    • 调整语言与高级参数
    • 在 GPU 可用时启用加速

Whisper 官方模型(当前可用)

  • Tiny / Tiny English
  • Base / Base English
  • Small / Small English
  • Medium / Medium English
  • Large-v2
  • Large-v3
  • Large-v3-Turbo

社区模型(当前内置)

  • Distil Small English
  • Distil Medium English
  • Distil Large V2 English
  • Distil Large V3

实时模型(当前内置)

  • Sherpa ncnn(旧版本):Chinese-English / Chinese / English / French
  • Sherpa ONNX(新版本):Chinese-English / Chinese / English / French / Russian / Korean / Japanese

以上列表以当前应用版本内置模型为准,后续版本可能增减。

名词解释(建议先读)

  • Tiny / Base / Small / Medium / Large:模型体积档位,通常体积越大准确率更高、速度更慢。
  • Turbo:在速度和质量之间做了工程优化的版本,常用于大模型提速。
  • .en 模型:针对英语优化,英语场景通常更快更稳。
  • Community 模型:社区训练的变体模型,优势和风险都更依赖真实样本验证。

更多建议可查看使用模型建议

真实场景:从“先能用”到“可复用”

很多团队第一次上手会直接选一个“大模型”开跑,结果是首轮等待时间过长,成员很快放弃统一流程。更稳妥的做法是:

  1. 先用 Small/Medium 建立可复用基线(保证大家都能稳定跑通)。
  2. 对关键素材(例如对外发布、法务存档)再升级到 Large-v3/Turbo
  3. 把“模型选择 + 参数模板”写入团队文档,减少个人经验差异。

这样做的好处是:日常效率不受影响,关键任务又能保证准确率。

常见问题

Q: 实时模型是不是一定比 Whisper 快?
A: 在低延迟场景通常更快,但最终速度还取决于设备与参数配置。

Q: 社区模型一定更准吗?
A: 不一定。社区模型通常针对特定语言或领域优化,需要按你的真实样本验证。

Q: 模型越大越好吗?
A: 大模型通常准确率更高,但显著增加资源占用与处理时延。

常见误区

  • 误区 1:只看模型体积,不看任务类型。
    纠正:实时场景优先低延迟模型,离线审校再考虑更大体积。
  • 误区 2:一次性全员切换到同一大模型。
    纠正:先用一套“默认基线 + 特殊升级”策略,兼顾稳定性和效率。
  • 误区 3:不做样本验证直接长期使用。
    纠正:每次换模型都用真实音频做 A/B 对比,再决定是否替换。

限制说明

  • 状态:稳定(非 Beta),如后续进入灰度会在应用内标注。
  • 功能开关受账号能力与版本策略影响,部分模型可能仅对特定套餐开放。
  • 不同平台可用引擎不同:Windows 优先 CUDA/Vulkan,macOS 优先 CoreML。
  • 模型下载与切换需要磁盘空间;大模型对内存与显存要求较高。
Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.