📚 文档
最后更新: 2026-02-08

高级参数转录

TODO(截图替换):高级参数面板(App 2.0) 建议包含:Prompt、Beam Search、无语音阈值、温度、最大上下文等核心参数区域。 建议文件名:advanced-params-v2.png

功能边界

高级参数影响转录引擎的解码与切段行为,不改变业务流程本身(如链接下载、监控调度)。

常见参数包含:

  • 场景预设(Whisper / Sherpa)
  • 抑制非语音标记
  • Prompt
  • 解码策略(Greedy / Beam Search)
  • 最大上下文
  • 无语音阈值
  • 片段转录与偏移范围
  • 限制长度
  • 熵阈值
  • 对数概率阈值
  • 温度
  • Sherpa VAD 高级参数(最小语音/静音、补偿、分段时长等)

适用场景

  • 背景噪声较大导致幻觉文本
  • 专有名词多、识别不稳定
  • 长音频重复片段较多
  • 对准确率要求更高的审校场景

操作步骤

  1. 在文件转录弹窗或设置中的转录参数区域进入高级参数。
  2. 先保留默认值,完成一次基线转录。
  3. 仅调整 1~2 个参数后复测,避免一次改动过多。
  4. 记录“参数-结果”对应关系,形成团队内部参数模板。
  5. 对于实时场景,优先评估实时参数预设,不直接照搬离线参数。

快速调优建议

  • 幻觉多:提高无语音阈值、降低温度、减小最大上下文
  • 术语识别差:设置 Prompt 并适度提高 Beam Search
  • 输出不完整:适度降低对数概率阈值
  • 句子切分过碎(Sherpa):提高最小语音时长与最小片段时长
  • 句子切分过长(Sherpa):降低最大片段时长并缩短合并间隔

Whisper 参数解释(文件转录)

参数组关键参数影响
场景预设通用(general)/ 对话(dialogue)/ 演讲(speech)/ 会议(meeting)/ 课程(course)/ 嘈杂(noisy)/ 自定义(custom)快速设置一组适配特定素材的参数
切段与范围片段转录、偏移范围、限制长度控制“转哪一段”和“每段多长”
识别稳定性无语音阈值、抑制非语音标记、最大上下文控制幻觉、重复文本与上下文连贯性
解码策略Greedy / Beam Search、best-of、beam-size在速度和准确率之间取平衡
回退策略熵阈值、对数概率阈值、温度处理低置信度段落时的容错行为

Sherpa 参数解释(文件转录)

参数组关键参数影响
VAD 场景预设通用(general)/ 对话(dialogue)/ 演讲(speech)/ 会议(meeting)/ 课程(course)/ 嘈杂(noisy)/ 自定义(custom)决定默认断句风格和灵敏度
时间步长VAD 帧长(vadFrameMs)检测粒度,越小越敏感但更耗资源
触发阈值最小语音时长、最小静音时长决定何时开始/结束一个片段
边界修正前补偿、后补偿、合并间隔修正句首句尾截断、减少碎片
片段长度边界最小/最大片段时长、分割搜索窗口控制片段过短或过长的问题
并行性能线程数影响吞吐与 CPU 占用

调参顺序建议(避免无效迭代)

  1. 先选场景预设(Whisper 或 Sherpa)。
  2. 再调 1~2 个核心参数(不要一次改整套)。
  3. 固定样本做 A/B 对比,记录“参数-效果”。
  4. 有明确收益后再固化为团队预设。

真实场景:术语密集的技术分享录音

  1. 先用默认参数跑一版,标记错误高发段落。
  2. 把术语词表写入 Prompt,再仅调整 Beam Search。
  3. 如果仍有幻觉,再调整无语音阈值和温度。
  4. 每轮只改 1~2 个参数并记录结果,确保可回滚。

这种“先定位问题,再最小化改动”的方式,通常比一次改全套参数更稳定。

常见误区

  • 误区 1:把高级参数当成“一键提准率”。
    纠正:参数是针对问题的微调手段,不是替代模型选型。
  • 误区 2:一次改很多参数。
    纠正:分轮验证,保留对照样本,才能知道改动是否有效。
  • 误区 3:离线参数直接照搬到实时场景。
    纠正:实时场景优先低延迟预设,再按需微调。

常见问题

Q: Beam Search 一定优于 Greedy 吗?
A: 不一定。Beam Search 往往更稳但更慢,低时延或批量吞吐优先场景通常先用 Greedy。

Q: Prompt 能像 ChatGPT 指令那样控制输出格式吗?
A: 不能。Whisper Prompt 主要用于上下文词汇引导,不是通用指令系统。

Q: Sherpa 场景预设和 Whisper 场景预设是一回事吗?
A: 不是。两者都叫“场景预设”,但底层参数不同:Whisper偏解码策略,Sherpa偏 VAD 切段行为。

Q: 为什么同样参数在不同机器效果不同?
A: 硬件性能、驱动与引擎差异会影响解码稳定性和实时性。

限制说明

  • 参数调整对不同语言、噪声条件并不通用,必须结合样本验证。
  • 部分高级参数可见性受账号功能或版本策略影响。
  • 极端参数可能导致输出为空、重复或延迟显著上升。
  • 平台:Windows 与 macOS 都支持高级参数,但底层引擎实现差异会影响同参表现。
Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.