📚 文档
最后更新: 2026-02-08

高级参数转录

TODO(截图替换):高级参数面板(App 2.0) 建议包含:Prompt、Beam Search、无语音阈值、温度、最大上下文等核心参数区域。 建议文件名:advanced-params-v2.png

功能边界

高级参数仅影响 Whisper 解码行为,不改变业务流程本身(如链接下载、监控调度)。

常见参数包含:

  • 抑制非语音标记
  • Prompt
  • 解码策略(Greedy / Beam Search)
  • 最大上下文
  • 无语音阈值
  • 限制长度
  • 熵阈值
  • 对数概率阈值
  • 温度

适用场景

  • 背景噪声较大导致幻觉文本
  • 专有名词多、识别不稳定
  • 长音频重复片段较多
  • 对准确率要求更高的审校场景

操作步骤

  1. 在文件转录弹窗或设置中的转录参数区域进入高级参数。
  2. 先保留默认值,完成一次基线转录。
  3. 仅调整 1~2 个参数后复测,避免一次改动过多。
  4. 记录“参数-结果”对应关系,形成团队内部参数模板。
  5. 对于实时场景,优先评估实时参数预设,不直接照搬离线参数。

快速调优建议

  • 幻觉多:提高无语音阈值、降低温度、减小最大上下文
  • 术语识别差:设置 Prompt 并适度提高 Beam Search
  • 输出不完整:适度降低对数概率阈值

真实场景:术语密集的技术分享录音

  1. 先用默认参数跑一版,标记错误高发段落。
  2. 把术语词表写入 Prompt,再仅调整 Beam Search。
  3. 如果仍有幻觉,再调整无语音阈值和温度。
  4. 每轮只改 1~2 个参数并记录结果,确保可回滚。

这种“先定位问题,再最小化改动”的方式,通常比一次改全套参数更稳定。

常见误区

  • 误区 1:把高级参数当成“一键提准率”。
    纠正:参数是针对问题的微调手段,不是替代模型选型。
  • 误区 2:一次改很多参数。
    纠正:分轮验证,保留对照样本,才能知道改动是否有效。
  • 误区 3:离线参数直接照搬到实时场景。
    纠正:实时场景优先低延迟预设,再按需微调。

常见问题

Q: Beam Search 一定优于 Greedy 吗?
A: 不一定。Beam Search 往往更稳但更慢,低时延场景通常优先 Greedy。

Q: Prompt 能像 ChatGPT 指令那样控制输出格式吗?
A: 不能。Whisper Prompt 主要用于上下文词汇引导,不是通用指令系统。

Q: 为什么同样参数在不同机器效果不同?
A: 硬件性能、驱动与引擎差异会影响解码稳定性和实时性。

限制说明

  • 参数调整对不同语言、噪声条件并不通用,必须结合样本验证。
  • 部分高级参数可见性受账号功能或版本策略影响。
  • 极端参数可能导致输出为空、重复或延迟显著上升。
  • 平台:Windows 与 macOS 都支持高级参数,但底层引擎实现差异会影响同参表现。
Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.