📚 文档

实时捕获并转录指定应用音频,适用于在线会议、课程回放、直播复盘和需要字幕式反馈的桌面场景。

实时应用转录应用实时转录实时录制应用

应用实时转录

实时转录

应用音频采集截图

真实截图

这页解决什么问题

应用实时转录解决的是“我想抓住某个桌面应用正在播放或输出的声音,并且实时看到文本”。

典型场景包括:

  • Zoom / Teams / Meet 会议
  • 在线课程、直播回放、演示视频
  • 某个应用内持续输出的语音内容

什么时候用,什么时候不要用

优先用应用实时转录

  • 你需要一边采集一边看文本
  • 你关心的是某个应用的声音,而不是麦克风
  • 你希望会后能直接进入笔记页继续整理

不要先用它的情况

  • 你只有文件素材,先看文件转录
  • 你需要批量处理网页链接,先看链接转录
  • 你更关心最终质量而不是实时反馈,可以先录制再转录

推荐工作流

  1. 会前先做一次短测,确认应用可见、权限齐全、字幕能稳定刷新。
  2. 选择 Whisper 或实时模型,并固定语言与输入方式。
  3. 开始正式采集后,不要频繁切换音频设备。
  4. 结束后回到笔记页,统一修正关键信息并导出。
  5. 需要总结、行动项或问答时,再进入AI助手

关键选择

1. 选实时模型还是 Whisper

情况第一选择说明
长时间会议、设备普通、优先低延迟实时模型通常更稳,不依赖高性能 GPU
设备 GPU 很强,希望更高准确率Whisper在强 GPU 机器上,Whisper 也能满足实时需求
你不确定哪条路线更适合先各跑 3~5 分钟样本用真实样本比较延迟、稳定性和错词率

2. 是否同时采集麦克风

如果你要保留双向对话,通常需要同时采集麦克风;如果你只关心课程或单向直播内容,保持单一音源会更干净。

3. 为什么要先做短测

应用采集最容易受权限、音频路由、全屏状态和蓝牙设备切换影响。3~5 分钟短测比事后补救更便宜。

常见误区与排障

  • 会议开始后才临时处理权限 建议会前短测,把权限问题留在正式会议开始前解决。
  • 以为只选中了一个应用,就一定不会串音 操作系统音频路由和系统提示音仍可能混入,建议关闭无关音源。
  • 实时字幕一刷新就直接外发 先在笔记页做一次人名、数字和时间的快速校对。
  • 默认认为实时场景一定只能用实时模型 如果 GPU 足够强,Whisper 同样值得纳入实时场景测试。

优先排查顺序:

  1. 应用捕获权限是否齐全
  2. 应用是否全屏或被移到别的 Space
  3. 音频输出设备是否稳定
  4. 是否同时有系统提示音或其它应用串入
  5. 当前模型是否超出设备实时处理能力

下一步阅读

Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.