📚 文档
最后更新: 2026-02-08

麦克风实时转录

TODO(截图替换):麦克风实时转录页面(App 2.0) 建议包含:设备选择、模型选择、VAD 开关、实时文本区、开始/暂停/停止按钮。 建议文件名:realtime-microphone-v2.png

功能边界

麦克风实时转录用于“当前麦克风输入”的实时出字,支持:

  • Whisper 模型与实时模型选择
  • 录制与转录同进程执行
  • 语音活动检测(VAD)与分段展示
  • 结束后进入笔记/导出链路

不负责系统音频采集;系统级采集请看全局实时(Beta)

适用场景

  • 单人口述写作、头脑风暴记录
  • 线上会议个人麦克风记录
  • 课程听讲时快速留档

操作步骤

  1. 首页点击“麦克风实时转录”。
  2. 选择模型(Whisper 或实时模型)与语言。
  3. 选择麦克风设备并检查系统麦克风权限。
  4. 按需启用 GPU、VAD、翻译等选项。
  5. 点击“开始”,观察实时文本流与状态提示。
  6. 结束后在笔记页进行编辑、AI 处理和导出。

建议没有显卡的用户使用实时模型

名词解释(建议先理解)

  • VAD(语音活动检测):自动识别“有人说话/无人说话”区间,用于分段与降噪。
  • 实时模型:强调延迟低、响应快,适合会议和口述输入。
  • 会话内文本流:录制过程中持续刷新的临时文本,结束后仍建议在笔记页复核。

真实场景:产品经理 30 分钟需求评审

  1. 会前 2 分钟先确认麦克风、语言和模型(优先实时模型)。
  2. 会议中只做轻量标记,不中断讨论去“边听边改全文”。
  3. 会后回到笔记页集中修正术语、生成行动项并导出纪要。

这个流程的核心是“会议不中断、会后集中整理”,通常比边开会边精修文本更高效。

常见误区

  • 误区 1:会议中频繁切模型。
    纠正:会前固定模型,会后再做准确率复核。
  • 误区 2:把实时文本当最终稿直接分发。
    纠正:实时文本是草稿,正式输出前建议在笔记页复核。
  • 误区 3:忽略麦克风输入链路。
    纠正:优先检查采样设备、权限和输入电平,通常比反复换模型更有效。

常见问题

Q: 转录过程中可以暂停吗?

A: 是的,您可以随时暂停和继续转录。

Q: 为什么无法转录麦克风?

A: 无法使用的情况有很多,可以先排查:

  1. 麦克风是否正常工作(虚拟麦克风可能无法转录)
  2. 模型文件是否完整
  3. 设备性能是否满足模型要求

Q: 转录内容可以导出吗?

A: 你可以在麦克风转录完成后导出为TXT、SRT等多种格式,也可以使用文件转录来获取更详细、准确的转录。

限制说明

  • 实时体验受麦克风质量、噪声环境和硬件性能影响明显。
  • 部分高级选项或模型依赖账号功能开通状态。
  • 低配设备建议优先使用实时模型并降低并发任务数量。
  • 平台:Windows 与 macOS 均支持,差异主要体现在权限授权入口与音频设备驱动链路。
Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.