📚 文档
实时捕获并转录指定应用音频,适用于在线会议、课程回放、直播复盘和需要字幕式反馈的桌面场景。
实时应用转录应用实时转录实时录制应用
应用实时转录
实时转录
应用音频采集截图
这页解决什么问题
应用实时转录解决的是“我想抓住某个桌面应用正在播放或输出的声音,并且实时看到文本”。
典型场景包括:
- Zoom / Teams / Meet 会议
- 在线课程、直播回放、演示视频
- 某个应用内持续输出的语音内容
什么时候用,什么时候不要用
优先用应用实时转录
- 你需要一边采集一边看文本
- 你关心的是某个应用的声音,而不是麦克风
- 你希望会后能直接进入笔记页继续整理
不要先用它的情况
推荐工作流
- 会前先做一次短测,确认应用可见、权限齐全、字幕能稳定刷新。
- 选择 Whisper 或实时模型,并固定语言与输入方式。
- 开始正式采集后,不要频繁切换音频设备。
- 结束后回到笔记页,统一修正关键信息并导出。
- 需要总结、行动项或问答时,再进入AI助手。
关键选择
1. 选实时模型还是 Whisper
| 情况 | 第一选择 | 说明 |
|---|---|---|
| 长时间会议、设备普通、优先低延迟 | 实时模型 | 通常更稳,不依赖高性能 GPU |
| 设备 GPU 很强,希望更高准确率 | Whisper | 在强 GPU 机器上,Whisper 也能满足实时需求 |
| 你不确定哪条路线更适合 | 先各跑 3~5 分钟样本 | 用真实样本比较延迟、稳定性和错词率 |
2. 是否同时采集麦克风
如果你要保留双向对话,通常需要同时采集麦克风;如果你只关心课程或单向直播内容,保持单一音源会更干净。
3. 为什么要先做短测
应用采集最容易受权限、音频路由、全屏状态和蓝牙设备切换影响。3~5 分钟短测比事后补救更便宜。
常见误区与排障
- 会议开始后才临时处理权限 建议会前短测,把权限问题留在正式会议开始前解决。
- 以为只选中了一个应用,就一定不会串音 操作系统音频路由和系统提示音仍可能混入,建议关闭无关音源。
- 实时字幕一刷新就直接外发 先在笔记页做一次人名、数字和时间的快速校对。
- 默认认为实时场景一定只能用实时模型 如果 GPU 足够强,Whisper 同样值得纳入实时场景测试。
优先排查顺序:
- 应用捕获权限是否齐全
- 应用是否全屏或被移到别的 Space
- 音频输出设备是否稳定
- 是否同时有系统提示音或其它应用串入
- 当前模型是否超出设备实时处理能力