📚 文档

解释 Whisper 与实时模型的关键高级参数，帮助你针对准确率、延迟、断句和稳定性做最小必要调优。

📚 文档文档

高级参数转录

高级参数

高级转录参数截图

真实截图

这页解决什么问题

高级参数不是给第一次使用的人看的。它适合下面这种情况：

你已经选对了模型路线，但结果还差最后一点
文本大致可用，但某类问题持续反复出现
你需要在准确率、延迟、断句和稳定性之间进一步取舍

它解决的是“微调”和“针对性修正”，不解决“路线选错了”。

什么时候该看这页，什么时候不该看

该看这页

背景噪声导致幻觉文本
术语、人名、缩写稳定性不够
句子切得太碎或太长
实时场景延迟能接受，但断句还不理想

不该先看这页

你还没确认 Whisper 和实时模型哪条路线更适合
你还没固定语言、样本和导出目标
你一上来就想同时改很多参数

先把模型路线和基线结果确定，再来看这页。

推荐调参顺序

先只改 1 个参数，最多 2 个。
每次都用同一段样本做对比。
先记录“问题现象”，再决定改哪个参数。
有明确收益后，再固化为团队模板。

这比“我觉得都调一点试试”稳定得多。

Whisper 重点参数：更适合解决什么问题

幻觉和重复文本

无语音阈值
最大上下文
温度

术语、人名、专有名词不稳

Prompt
Beam Search / Greedy
best-of / beam-size

只想处理某一段素材

片段转录
偏移范围
限制长度

实时模型重点参数：更适合解决什么问题

实时模型的调优重点通常不在“解码策略”，而在“切段行为”。它更像是在调节：

什么时候判定开始说话
什么时候判定一句话结束
句首句尾要不要补一点余量
片段过碎或过长时怎样修正

常见关键项包括：

VAD 场景预设
最小语音时长 / 最小静音时长
最小 / 最大分段时长
前后补偿和合并间隔
线程数

在当前实现里，这类实时模型由内部 MLEngine 承载；但对用户来说，你只需要理解它们是“更适合实时转录的一类模型”即可。

常见误区与排障

把高级参数当成一键提准率 它们只能解决特定问题，不替代模型选型。
一次改很多参数 这样通常无法知道到底是哪一个改动带来收益或副作用。
把文件转录参数直接照搬到实时场景 实时场景要先考虑延迟和断句，不是只考虑文本准确率。
看见错字就盲目加大模型 有时真正的问题是语言设置、VAD 断句或样本噪声，而不是模型大小。

下一步阅读

还没确定模型路线：概念
想按设备和任务快速选模型：使用模型建议
需要回到设置做默认配置：核心设置总览

Whisper大模型驱动 - 音视频秒转文字，声波流式转录，让每个声音都成篇章

Link

主页特性下载定价文档常见问题

Legal

隐私策略服务条款

Contact us

Copyright © 2026. Made by AudioNote, All rights reserved.