📚 文档
判断哪些任务值得开启 GPU、不同平台该选什么引擎,以及何时回退到 CPU 更稳妥。
GPU转录加速CUDAVulkan
GPU转录
性能
GPU 与运行时设置截图
这页解决什么问题
GPU 不是越早开越好,也不是所有场景都必须开。它主要帮助你解决两个问题:
- 处理中大模型时,减少等待时间
- 让 Whisper 在更高强度的任务里保持更好的吞吐和实时性
这页帮你判断:什么时候 GPU 值得开,什么时候回退 CPU 更稳。
什么时候值得启用 GPU
优先考虑 GPU 的情况
- 长音频、批量文件转录
- Whisper Medium / Large 等更重模型
- 你的目标是在实时场景里让 Whisper 达到更好的 RTF
- 你已经确认 GPU 路线稳定,不会频繁报错
不一定要优先开 GPU 的情况
- 你主要使用实时模型
- 你只做轻量任务或短音频
- 你当前最关心的是先把流程跑通
- GPU 驱动、运行库或系统环境不稳定
不同平台通常怎么选
| 平台 / 设备 | 常见路线 | 说明 |
|---|---|---|
| Windows + NVIDIA | CUDA 优先 | 通常是最直接的高性能路线 |
| Windows + 非 NVIDIA 或兼容性一般 | Vulkan | 适合更广泛的显卡环境 |
| macOS | CoreML | Apple 设备上的常见默认路线 |
一个稳妥的验证方法
- 用同一素材、同一语言、同一模型分别跑 CPU 和 GPU。
- 记录总耗时,也记录失败率和异常情况。
- 再分别验证短音频和长音频。
- 只有当“速度收益稳定 + 失败率可控”时,才把 GPU 设成默认。
这可以避免“理论更快,但实际经常重跑”的假提效。
常见误区与排障
- 一开 GPU 就立即上全量并发 先验证单任务稳定,再逐步提高并发。
- 只看显卡型号,不看驱动和运行库 兼容性问题往往出在环境,而不是“这张卡不能用”。
- GPU 报错后就直接否定 Whisper 先回退 CPU 或换引擎验证,分清是模型问题还是运行环境问题。
- 把 GPU 当作实时模型的必要条件 实时模型通常不依赖 GPU,它们解决的是另一类实时性问题。