📚 文档

解释 Whisper 与实时模型的关键高级参数,帮助你针对准确率、延迟、断句和稳定性做最小必要调优。

📚 文档文档

高级参数转录

高级参数

高级转录参数截图

真实截图

这页解决什么问题

高级参数不是给第一次使用的人看的。它适合下面这种情况:

  • 你已经选对了模型路线,但结果还差最后一点
  • 文本大致可用,但某类问题持续反复出现
  • 你需要在准确率、延迟、断句和稳定性之间进一步取舍

它解决的是“微调”和“针对性修正”,不解决“路线选错了”。

什么时候该看这页,什么时候不该看

该看这页

  • 背景噪声导致幻觉文本
  • 术语、人名、缩写稳定性不够
  • 句子切得太碎或太长
  • 实时场景延迟能接受,但断句还不理想

不该先看这页

  • 你还没确认 Whisper 和实时模型哪条路线更适合
  • 你还没固定语言、样本和导出目标
  • 你一上来就想同时改很多参数

先把模型路线和基线结果确定,再来看这页。

推荐调参顺序

  1. 先只改 1 个参数,最多 2 个。
  2. 每次都用同一段样本做对比。
  3. 先记录“问题现象”,再决定改哪个参数。
  4. 有明确收益后,再固化为团队模板。

这比“我觉得都调一点试试”稳定得多。

Whisper 重点参数:更适合解决什么问题

幻觉和重复文本

  • 无语音阈值
  • 最大上下文
  • 温度

术语、人名、专有名词不稳

  • Prompt
  • Beam Search / Greedy
  • best-of / beam-size

只想处理某一段素材

  • 片段转录
  • 偏移范围
  • 限制长度

实时模型重点参数:更适合解决什么问题

实时模型的调优重点通常不在“解码策略”,而在“切段行为”。它更像是在调节:

  • 什么时候判定开始说话
  • 什么时候判定一句话结束
  • 句首句尾要不要补一点余量
  • 片段过碎或过长时怎样修正

常见关键项包括:

  • VAD 场景预设
  • 最小语音时长 / 最小静音时长
  • 最小 / 最大分段时长
  • 前后补偿和合并间隔
  • 线程数

在当前实现里,这类实时模型由内部 MLEngine 承载;但对用户来说,你只需要理解它们是“更适合实时转录的一类模型”即可。

常见误区与排障

  • 把高级参数当成一键提准率 它们只能解决特定问题,不替代模型选型。
  • 一次改很多参数 这样通常无法知道到底是哪一个改动带来收益或副作用。
  • 把文件转录参数直接照搬到实时场景 实时场景要先考虑延迟和断句,不是只考虑文本准确率。
  • 看见错字就盲目加大模型 有时真正的问题是语言设置、VAD 断句或样本噪声,而不是模型大小。

下一步阅读

Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.