📚 文档

使用麦克风进行实时转录，支持 Whisper 与实时模型，适合会议记录、口述输入和边说边写场景。

音记AI麦克风实时转录语音识别

麦克风实时转录

麦克风

麦克风实时转录截图

真实截图

这页解决什么问题

麦克风实时转录适合“我现在就要边说边看到文字”的场景，比如：

会议时给自己留实时草稿
口述写作、头脑风暴、提纲整理
访谈、课程或复盘时做快速留档

它不是“把完整结果一次性做对”的流程，而是“用低延迟先把信息抓住，再回到笔记页整理”的流程。

什么时候用，什么时候不要用

优先用麦克风实时转录

你更在意出字速度和连续反馈
你希望会后再统一整理，不在当下精修
你主要采集的是自己的麦克风输入

不要先用它的情况

你要处理的是已经录好的文件，先看文件转录
你要抓的是某个应用的声音，先看应用实时转录
你更在意最终准确率而不是即时反馈，可以先录制再转录

推荐工作流

开始前先确认麦克风、语言和模型。
先做 30~60 秒短测，检查延迟、断句和输入电平。
会中只关注“有没有稳定出字”，不要频繁改模型和参数。
结束后进入笔记页，统一修正术语、人名、数字和行动项。
需要摘要、纪要或对外文案时，再进入AI助手。

关键选择

1. 实时场景里选 Whisper 还是实时模型

情况	第一选择	说明
没有高性能 GPU，优先保证低延迟	实时模型	更适合实时转录，通常不依赖 GPU
设备 GPU 很强，希望实时场景也兼顾准确率	Whisper	在高性能 GPU 上，Whisper 也可能达到不错的 RTF
低性能设备，先求稳定可用	实时模型	先把出字稳定性跑通，再考虑升级

2. 什么时候值得用实时模型

当你的目标是：

低延迟字幕
边录边转
低性能设备也要稳定运行
长时间持续采集时不想依赖 GPU

那实时模型通常就是更好的默认值。

在实现层面，实时模型当前由内部 MLEngine 承载；但在用户工作流里，你只需要把它理解成“更适合实时转录的一类模型”。

常见误区与排障

把实时文本直接当最终稿 实时文本更适合做草稿，会后建议回笔记页统一修正。
开会中途频繁切模型 会前短测并固定方案，会后再做 A/B 对比。
一看到错字就只想换模型 先检查麦克风链路、说话距离、环境噪声和语言设置。
默认认为 Whisper 不适合实时场景 在高性能 GPU 上，Whisper 完全可能是实时场景的优先解。

排查顺序建议：

系统麦克风权限是否正常
麦克风输入电平和设备是否选对
模型是否适合当前设备
GPU、驱动和运行库是否稳定
环境噪声是否导致 VAD 或断句失真

下一步阅读

想抓应用声音而不是麦克风：应用实时转录
想先录完再精修：录制
想继续理解模型选择：使用模型建议
结果已经可用，但想继续提准：高级参数转录

Whisper大模型驱动 - 音视频秒转文字，声波流式转录，让每个声音都成篇章

Link

主页特性下载定价文档常见问题

Legal

隐私策略服务条款

Contact us

Copyright © 2026. Made by AudioNote, All rights reserved.