📚 文档
最后更新: 2026-02-08高级参数转录

TODO(截图替换):高级参数面板(App 2.0) 建议包含:Prompt、Beam Search、无语音阈值、温度、最大上下文等核心参数区域。 建议文件名:
advanced-params-v2.png
功能边界
高级参数影响转录引擎的解码与切段行为,不改变业务流程本身(如链接下载、监控调度)。
常见参数包含:
- 场景预设(Whisper / Sherpa)
- 抑制非语音标记
- Prompt
- 解码策略(Greedy / Beam Search)
- 最大上下文
- 无语音阈值
- 片段转录与偏移范围
- 限制长度
- 熵阈值
- 对数概率阈值
- 温度
- Sherpa VAD 高级参数(最小语音/静音、补偿、分段时长等)
适用场景
- 背景噪声较大导致幻觉文本
- 专有名词多、识别不稳定
- 长音频重复片段较多
- 对准确率要求更高的审校场景
操作步骤
- 在文件转录弹窗或设置中的转录参数区域进入高级参数。
- 先保留默认值,完成一次基线转录。
- 仅调整 1~2 个参数后复测,避免一次改动过多。
- 记录“参数-结果”对应关系,形成团队内部参数模板。
- 对于实时场景,优先评估实时参数预设,不直接照搬离线参数。
快速调优建议
- 幻觉多:提高无语音阈值、降低温度、减小最大上下文
- 术语识别差:设置 Prompt 并适度提高 Beam Search
- 输出不完整:适度降低对数概率阈值
- 句子切分过碎(Sherpa):提高最小语音时长与最小片段时长
- 句子切分过长(Sherpa):降低最大片段时长并缩短合并间隔
Whisper 参数解释(文件转录)
| 参数组 | 关键参数 | 影响 |
|---|---|---|
| 场景预设 | 通用(general)/ 对话(dialogue)/ 演讲(speech)/ 会议(meeting)/ 课程(course)/ 嘈杂(noisy)/ 自定义(custom) | 快速设置一组适配特定素材的参数 |
| 切段与范围 | 片段转录、偏移范围、限制长度 | 控制“转哪一段”和“每段多长” |
| 识别稳定性 | 无语音阈值、抑制非语音标记、最大上下文 | 控制幻觉、重复文本与上下文连贯性 |
| 解码策略 | Greedy / Beam Search、best-of、beam-size | 在速度和准确率之间取平衡 |
| 回退策略 | 熵阈值、对数概率阈值、温度 | 处理低置信度段落时的容错行为 |
Sherpa 参数解释(文件转录)
| 参数组 | 关键参数 | 影响 |
|---|---|---|
| VAD 场景预设 | 通用(general)/ 对话(dialogue)/ 演讲(speech)/ 会议(meeting)/ 课程(course)/ 嘈杂(noisy)/ 自定义(custom) | 决定默认断句风格和灵敏度 |
| 时间步长 | VAD 帧长(vadFrameMs) | 检测粒度,越小越敏感但更耗资源 |
| 触发阈值 | 最小语音时长、最小静音时长 | 决定何时开始/结束一个片段 |
| 边界修正 | 前补偿、后补偿、合并间隔 | 修正句首句尾截断、减少碎片 |
| 片段长度边界 | 最小/最大片段时长、分割搜索窗口 | 控制片段过短或过长的问题 |
| 并行性能 | 线程数 | 影响吞吐与 CPU 占用 |
调参顺序建议(避免无效迭代)
- 先选场景预设(Whisper 或 Sherpa)。
- 再调 1~2 个核心参数(不要一次改整套)。
- 固定样本做 A/B 对比,记录“参数-效果”。
- 有明确收益后再固化为团队预设。
真实场景:术语密集的技术分享录音
- 先用默认参数跑一版,标记错误高发段落。
- 把术语词表写入 Prompt,再仅调整 Beam Search。
- 如果仍有幻觉,再调整无语音阈值和温度。
- 每轮只改 1~2 个参数并记录结果,确保可回滚。
这种“先定位问题,再最小化改动”的方式,通常比一次改全套参数更稳定。
常见误区
- 误区 1:把高级参数当成“一键提准率”。
纠正:参数是针对问题的微调手段,不是替代模型选型。 - 误区 2:一次改很多参数。
纠正:分轮验证,保留对照样本,才能知道改动是否有效。 - 误区 3:离线参数直接照搬到实时场景。
纠正:实时场景优先低延迟预设,再按需微调。
常见问题
Q: Beam Search 一定优于 Greedy 吗?
A: 不一定。Beam Search 往往更稳但更慢,低时延或批量吞吐优先场景通常先用 Greedy。
Q: Prompt 能像 ChatGPT 指令那样控制输出格式吗?
A: 不能。Whisper Prompt 主要用于上下文词汇引导,不是通用指令系统。
Q: Sherpa 场景预设和 Whisper 场景预设是一回事吗?
A: 不是。两者都叫“场景预设”,但底层参数不同:Whisper偏解码策略,Sherpa偏 VAD 切段行为。
Q: 为什么同样参数在不同机器效果不同?
A: 硬件性能、驱动与引擎差异会影响解码稳定性和实时性。
限制说明
- 参数调整对不同语言、噪声条件并不通用,必须结合样本验证。
- 部分高级参数可见性受账号功能或版本策略影响。
- 极端参数可能导致输出为空、重复或延迟显著上升。
- 平台:Windows 与 macOS 都支持高级参数,但底层引擎实现差异会影响同参表现。