📚 文档
解释 Whisper 与实时模型的关键高级参数,帮助你针对准确率、延迟、断句和稳定性做最小必要调优。
📚 文档文档
高级参数转录
高级参数
高级转录参数截图
这页解决什么问题
高级参数不是给第一次使用的人看的。它适合下面这种情况:
- 你已经选对了模型路线,但结果还差最后一点
- 文本大致可用,但某类问题持续反复出现
- 你需要在准确率、延迟、断句和稳定性之间进一步取舍
它解决的是“微调”和“针对性修正”,不解决“路线选错了”。
什么时候该看这页,什么时候不该看
该看这页
- 背景噪声导致幻觉文本
- 术语、人名、缩写稳定性不够
- 句子切得太碎或太长
- 实时场景延迟能接受,但断句还不理想
不该先看这页
- 你还没确认 Whisper 和实时模型哪条路线更适合
- 你还没固定语言、样本和导出目标
- 你一上来就想同时改很多参数
先把模型路线和基线结果确定,再来看这页。
推荐调参顺序
- 先只改 1 个参数,最多 2 个。
- 每次都用同一段样本做对比。
- 先记录“问题现象”,再决定改哪个参数。
- 有明确收益后,再固化为团队模板。
这比“我觉得都调一点试试”稳定得多。
Whisper 重点参数:更适合解决什么问题
幻觉和重复文本
- 无语音阈值
- 最大上下文
- 温度
术语、人名、专有名词不稳
- Prompt
- Beam Search / Greedy
- best-of / beam-size
只想处理某一段素材
- 片段转录
- 偏移范围
- 限制长度
实时模型重点参数:更适合解决什么问题
实时模型的调优重点通常不在“解码策略”,而在“切段行为”。它更像是在调节:
- 什么时候判定开始说话
- 什么时候判定一句话结束
- 句首句尾要不要补一点余量
- 片段过碎或过长时怎样修正
常见关键项包括:
- VAD 场景预设
- 最小语音时长 / 最小静音时长
- 最小 / 最大分段时长
- 前后补偿和合并间隔
- 线程数
在当前实现里,这类实时模型由内部 MLEngine 承载;但对用户来说,你只需要理解它们是“更适合实时转录的一类模型”即可。
常见误区与排障
- 把高级参数当成一键提准率 它们只能解决特定问题,不替代模型选型。
- 一次改很多参数 这样通常无法知道到底是哪一个改动带来收益或副作用。
- 把文件转录参数直接照搬到实时场景 实时场景要先考虑延迟和断句,不是只考虑文本准确率。
- 看见错字就盲目加大模型 有时真正的问题是语言设置、VAD 断句或样本噪声,而不是模型大小。