📚 文档
最后更新: 2026-02-08麦克风实时转录

TODO(截图替换):麦克风实时转录页面(App 2.0) 建议包含:设备选择、模型选择、VAD 开关、实时文本区、开始/暂停/停止按钮。 建议文件名:
realtime-microphone-v2.png
功能边界
麦克风实时转录用于“当前麦克风输入”的实时出字,支持:
- Whisper 模型与实时模型选择
- 录制与转录同进程执行
- 语音活动检测(VAD)与分段展示
- 结束后进入笔记/导出链路
不负责系统音频采集;系统级采集请看全局实时(Beta)。
适用场景
- 单人口述写作、头脑风暴记录
- 线上会议个人麦克风记录
- 课程听讲时快速留档
操作步骤
- 首页点击“麦克风实时转录”。
- 选择模型(Whisper 或实时模型)与语言。
- 选择麦克风设备并检查系统麦克风权限。
- 按需启用 GPU、VAD、翻译等选项。
- 点击“开始”,观察实时文本流与状态提示。
- 结束后在笔记页进行编辑、AI 处理和导出。
建议没有显卡的用户使用实时模型
名词解释(建议先理解)
- VAD(语音活动检测):自动识别“有人说话/无人说话”区间,用于分段与降噪。
- 实时模型:强调延迟低、响应快,适合会议和口述输入。
- 会话内文本流:录制过程中持续刷新的临时文本,结束后仍建议在笔记页复核。
真实场景:产品经理 30 分钟需求评审
- 会前 2 分钟先确认麦克风、语言和模型(优先实时模型)。
- 会议中只做轻量标记,不中断讨论去“边听边改全文”。
- 会后回到笔记页集中修正术语、生成行动项并导出纪要。
这个流程的核心是“会议不中断、会后集中整理”,通常比边开会边精修文本更高效。
常见误区
- 误区 1:会议中频繁切模型。
纠正:会前固定模型,会后再做准确率复核。 - 误区 2:把实时文本当最终稿直接分发。
纠正:实时文本是草稿,正式输出前建议在笔记页复核。 - 误区 3:忽略麦克风输入链路。
纠正:优先检查采样设备、权限和输入电平,通常比反复换模型更有效。
常见问题
Q: 转录过程中可以暂停吗?
A: 是的,您可以随时暂停和继续转录。
Q: 为什么无法转录麦克风?
A: 无法使用的情况有很多,可以先排查:
- 麦克风是否正常工作(虚拟麦克风可能无法转录)
- 模型文件是否完整
- 设备性能是否满足模型要求
Q: 转录内容可以导出吗?
A: 你可以在麦克风转录完成后导出为TXT、SRT等多种格式,也可以使用文件转录来获取更详细、准确的转录。
限制说明
- 实时体验受麦克风质量、噪声环境和硬件性能影响明显。
- 部分高级选项或模型依赖账号功能开通状态。
- 低配设备建议优先使用实时模型并降低并发任务数量。
- 平台:Windows 与 macOS 均支持,差异主要体现在权限授权入口与音频设备驱动链路。