📚 文档

实时捕获并转录指定应用音频，适用于在线会议、课程回放、直播复盘和需要字幕式反馈的桌面场景。

实时应用转录应用实时转录实时录制应用

应用实时转录

实时转录

应用音频采集截图

真实截图

这页解决什么问题

应用实时转录解决的是“我想抓住某个桌面应用正在播放或输出的声音，并且实时看到文本”。

典型场景包括：

Zoom / Teams / Meet 会议
在线课程、直播回放、演示视频
某个应用内持续输出的语音内容

什么时候用，什么时候不要用

优先用应用实时转录

你需要一边采集一边看文本
你关心的是某个应用的声音，而不是麦克风
你希望会后能直接进入笔记页继续整理

不要先用它的情况

你只有文件素材，先看文件转录
你需要批量处理网页链接，先看链接转录
你更关心最终质量而不是实时反馈，可以先录制再转录

推荐工作流

会前先做一次短测，确认应用可见、权限齐全、字幕能稳定刷新。
选择 Whisper 或实时模型，并固定语言与输入方式。
开始正式采集后，不要频繁切换音频设备。
结束后回到笔记页，统一修正关键信息并导出。
需要总结、行动项或问答时，再进入AI助手。

关键选择

1. 选实时模型还是 Whisper

情况	第一选择	说明
长时间会议、设备普通、优先低延迟	实时模型	通常更稳，不依赖高性能 GPU
设备 GPU 很强，希望更高准确率	Whisper	在强 GPU 机器上，Whisper 也能满足实时需求
你不确定哪条路线更适合	先各跑 3~5 分钟样本	用真实样本比较延迟、稳定性和错词率

2. 是否同时采集麦克风

如果你要保留双向对话，通常需要同时采集麦克风；如果你只关心课程或单向直播内容，保持单一音源会更干净。

3. 为什么要先做短测

应用采集最容易受权限、音频路由、全屏状态和蓝牙设备切换影响。3~5 分钟短测比事后补救更便宜。

常见误区与排障

会议开始后才临时处理权限 建议会前短测，把权限问题留在正式会议开始前解决。
以为只选中了一个应用，就一定不会串音 操作系统音频路由和系统提示音仍可能混入，建议关闭无关音源。
实时字幕一刷新就直接外发 先在笔记页做一次人名、数字和时间的快速校对。
默认认为实时场景一定只能用实时模型 如果 GPU 足够强，Whisper 同样值得纳入实时场景测试。

优先排查顺序：

应用捕获权限是否齐全
应用是否全屏或被移到别的 Space
音频输出设备是否稳定
是否同时有系统提示音或其它应用串入
当前模型是否超出设备实时处理能力

下一步阅读

只需要采集自己的声音：麦克风实时转录
更看重最终质量：录制
会后整理和导出：笔记
继续优化模型和参数：高级参数转录

Whisper大模型驱动 - 音视频秒转文字，声波流式转录，让每个声音都成篇章

Link

主页特性下载定价文档常见问题

Legal

隐私策略服务条款

Contact us

Copyright © 2026. Made by AudioNote, All rights reserved.