📚 文档
使用麦克风进行实时转录,支持 Whisper 与实时模型,适合会议记录、口述输入和边说边写场景。
音记AI麦克风实时转录语音识别
麦克风实时转录
麦克风
麦克风实时转录截图
这页解决什么问题
麦克风实时转录适合“我现在就要边说边看到文字”的场景,比如:
- 会议时给自己留实时草稿
- 口述写作、头脑风暴、提纲整理
- 访谈、课程或复盘时做快速留档
它不是“把完整结果一次性做对”的流程,而是“用低延迟先把信息抓住,再回到笔记页整理”的流程。
什么时候用,什么时候不要用
优先用麦克风实时转录
- 你更在意出字速度和连续反馈
- 你希望会后再统一整理,不在当下精修
- 你主要采集的是自己的麦克风输入
不要先用它的情况
推荐工作流
- 开始前先确认麦克风、语言和模型。
- 先做 30~60 秒短测,检查延迟、断句和输入电平。
- 会中只关注“有没有稳定出字”,不要频繁改模型和参数。
- 结束后进入笔记页,统一修正术语、人名、数字和行动项。
- 需要摘要、纪要或对外文案时,再进入AI助手。
关键选择
1. 实时场景里选 Whisper 还是实时模型
| 情况 | 第一选择 | 说明 |
|---|---|---|
| 没有高性能 GPU,优先保证低延迟 | 实时模型 | 更适合实时转录,通常不依赖 GPU |
| 设备 GPU 很强,希望实时场景也兼顾准确率 | Whisper | 在高性能 GPU 上,Whisper 也可能达到不错的 RTF |
| 低性能设备,先求稳定可用 | 实时模型 | 先把出字稳定性跑通,再考虑升级 |
2. 什么时候值得用实时模型
当你的目标是:
- 低延迟字幕
- 边录边转
- 低性能设备也要稳定运行
- 长时间持续采集时不想依赖 GPU
那实时模型通常就是更好的默认值。
在实现层面,实时模型当前由内部 MLEngine 承载;但在用户工作流里,你只需要把它理解成“更适合实时转录的一类模型”。
常见误区与排障
- 把实时文本直接当最终稿 实时文本更适合做草稿,会后建议回笔记页统一修正。
- 开会中途频繁切模型 会前短测并固定方案,会后再做 A/B 对比。
- 一看到错字就只想换模型 先检查麦克风链路、说话距离、环境噪声和语言设置。
- 默认认为 Whisper 不适合实时场景 在高性能 GPU 上,Whisper 完全可能是实时场景的优先解。
排查顺序建议:
- 系统麦克风权限是否正常
- 麦克风输入电平和设备是否选对
- 模型是否适合当前设备
- GPU、驱动和运行库是否稳定
- 环境噪声是否导致 VAD 或断句失真