📚 文档

最后更新: 2026-02-08

概念

setting-model

TODO（截图替换）：模型设置页（App 2.0）建议包含：模型分类标签（Whisper/实时）、下载状态、默认模型选择区、GPU 引擎设置入口。建议文件名：settings-models-v2.png

功能边界

Audio Note 的模型能力分为三类：

Whisper 官方模型（离线高精度）
社区模型（特定语言/场景增强）
实时模型（低延迟、实时反馈）

模型本身只决定“识别能力与速度”，不直接决定业务流程（如链接转录、监控、工作空间）。

适用场景

设备性能一般、追求快速出字：优先实时模型或 Whisper Tiny/Base
追求准确率（会议、课程、播客）：优先 Whisper Small/Medium/Large
以英语为主、速度优先：优先 .en 系列或 Distil 英文模型
长音频、术语较多：优先 Large-v3/Large-v3-Turbo，并结合高级参数调优

操作步骤

打开 设置 > 转录，进入模型库。
按目标场景选择模型类别（Whisper / 实时）。
下载模型并确认存储路径可用。
在首页启动转录任务，观察速度与准确率。
不满足预期时，按下列顺序调优：
- 更换模型体积档位
- 调整语言与高级参数
- 在 GPU 可用时启用加速

Whisper 官方模型（当前可用）

Tiny / Tiny English
Base / Base English
Small / Small English
Medium / Medium English
Large-v2
Large-v3
Large-v3-Turbo

社区模型（当前内置）

Distil Small English
Distil Medium English
Distil Large V2 English
Distil Large V3

实时模型（当前内置）

Sherpa ncnn(旧版本)：Chinese-English / Chinese / English / French
Sherpa ONNX(新版本)：Chinese-English / Chinese / English / French / Russian / Korean / Japanese

以上列表以当前应用版本内置模型为准，后续版本可能增减。

名词解释（建议先读）

Tiny / Base / Small / Medium / Large：模型体积档位，通常体积越大准确率更高、速度更慢。
Turbo：在速度和质量之间做了工程优化的版本，常用于大模型提速。
.en 模型：针对英语优化，英语场景通常更快更稳。
Community 模型：社区训练的变体模型，优势和风险都更依赖真实样本验证。

更多建议可查看使用模型建议。

真实场景：从“先能用”到“可复用”

很多团队第一次上手会直接选一个“大模型”开跑，结果是首轮等待时间过长，成员很快放弃统一流程。更稳妥的做法是：

先用 Small/Medium 建立可复用基线（保证大家都能稳定跑通）。
对关键素材（例如对外发布、法务存档）再升级到 Large-v3/Turbo。
把“模型选择 + 参数模板”写入团队文档，减少个人经验差异。

这样做的好处是：日常效率不受影响，关键任务又能保证准确率。

常见问题

Q: 实时模型是不是一定比 Whisper 快？
A: 在低延迟场景通常更快，但最终速度还取决于设备与参数配置。

Q: 社区模型一定更准吗？
A: 不一定。社区模型通常针对特定语言或领域优化，需要按你的真实样本验证。

Q: 模型越大越好吗？
A: 大模型通常准确率更高，但显著增加资源占用与处理时延。

常见误区

误区 1：只看模型体积，不看任务类型。
纠正：实时场景优先低延迟模型，离线审校再考虑更大体积。
误区 2：一次性全员切换到同一大模型。
纠正：先用一套“默认基线 + 特殊升级”策略，兼顾稳定性和效率。
误区 3：不做样本验证直接长期使用。
纠正：每次换模型都用真实音频做 A/B 对比，再决定是否替换。

限制说明

状态：稳定（非 Beta），如后续进入灰度会在应用内标注。
功能开关受账号能力与版本策略影响，部分模型可能仅对特定套餐开放。
不同平台可用引擎不同：Windows 优先 CUDA/Vulkan，macOS 优先 CoreML。
模型下载与切换需要磁盘空间；大模型对内存与显存要求较高。

Whisper大模型驱动 - 音视频秒转文字，声波流式转录，让每个声音都成篇章

Link

主页特性下载定价文档常见问题

Legal

隐私策略服务条款

Contact us

Copyright © 2026. Made by AudioNote, All rights reserved.