📚 文档

使用麦克风进行实时转录,支持 Whisper 与实时模型,适合会议记录、口述输入和边说边写场景。

音记AI麦克风实时转录语音识别

麦克风实时转录

麦克风

麦克风实时转录截图

真实截图

这页解决什么问题

麦克风实时转录适合“我现在就要边说边看到文字”的场景,比如:

  • 会议时给自己留实时草稿
  • 口述写作、头脑风暴、提纲整理
  • 访谈、课程或复盘时做快速留档

它不是“把完整结果一次性做对”的流程,而是“用低延迟先把信息抓住,再回到笔记页整理”的流程。

什么时候用,什么时候不要用

优先用麦克风实时转录

  • 你更在意出字速度和连续反馈
  • 你希望会后再统一整理,不在当下精修
  • 你主要采集的是自己的麦克风输入

不要先用它的情况

  • 你要处理的是已经录好的文件,先看文件转录
  • 你要抓的是某个应用的声音,先看应用实时转录
  • 你更在意最终准确率而不是即时反馈,可以先录制再转录

推荐工作流

  1. 开始前先确认麦克风、语言和模型。
  2. 先做 30~60 秒短测,检查延迟、断句和输入电平。
  3. 会中只关注“有没有稳定出字”,不要频繁改模型和参数。
  4. 结束后进入笔记页,统一修正术语、人名、数字和行动项。
  5. 需要摘要、纪要或对外文案时,再进入AI助手

关键选择

1. 实时场景里选 Whisper 还是实时模型

情况第一选择说明
没有高性能 GPU,优先保证低延迟实时模型更适合实时转录,通常不依赖 GPU
设备 GPU 很强,希望实时场景也兼顾准确率Whisper在高性能 GPU 上,Whisper 也可能达到不错的 RTF
低性能设备,先求稳定可用实时模型先把出字稳定性跑通,再考虑升级

2. 什么时候值得用实时模型

当你的目标是:

  • 低延迟字幕
  • 边录边转
  • 低性能设备也要稳定运行
  • 长时间持续采集时不想依赖 GPU

那实时模型通常就是更好的默认值。

在实现层面,实时模型当前由内部 MLEngine 承载;但在用户工作流里,你只需要把它理解成“更适合实时转录的一类模型”。

常见误区与排障

  • 把实时文本直接当最终稿 实时文本更适合做草稿,会后建议回笔记页统一修正。
  • 开会中途频繁切模型 会前短测并固定方案,会后再做 A/B 对比。
  • 一看到错字就只想换模型 先检查麦克风链路、说话距离、环境噪声和语言设置。
  • 默认认为 Whisper 不适合实时场景 在高性能 GPU 上,Whisper 完全可能是实时场景的优先解。

排查顺序建议:

  1. 系统麦克风权限是否正常
  2. 麦克风输入电平和设备是否选对
  3. 模型是否适合当前设备
  4. GPU、驱动和运行库是否稳定
  5. 环境噪声是否导致 VAD 或断句失真

下一步阅读

Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.