📚 文档
最后更新: 2026-02-08文件转录

TODO(截图替换):文件转录参数弹窗(App 2.0) 建议包含:文件列表、模型/语言选择、GPU 开关、翻译开关、批量应用参数按钮。 建议文件名:
file-transcription-dialog-v2.png
功能边界
文件转录负责“单文件或批量文件”的离线转写流程,包括:
- 文件导入(拖拽/选择)
- 模型与语言配置
- 转录队列执行
- 笔记页查看、编辑与导出
不负责:
适用场景
- 会议录音、采访音频、课程视频归档
- 批量整理播客/直播回放素材
- 需要字幕导出或多格式文本归档的场景
操作步骤
- 在首页点击“转录文件”或直接拖拽媒体文件。
- 在参数弹窗中选择模型、语言、是否启用 GPU、是否翻译为英文。
- 单文件直接开始转录;多文件将进入批量参数配置流程。
- 转录完成后自动进入笔记页,可继续编辑、AI 对话、导出。
- 如需统一参数,使用“应用到所有文件”提高批量效率。
文件格式支持
音记AI支持多种音视频文件格式:
- 音频格式:MP3, WAV, M4A, FLAC, AAC
- 视频格式:MP4, AVI, MOV, MKV, FLV
实际可导入格式以应用文件选择器显示为准。
关键参数建议
- 轻量任务:Tiny/Base + 自动语言
- 平衡精度:Small/Medium + 指定语言
- 高精度任务:Large-v3 或 Large-v3-Turbo + GPU
- 结果异常时再调节高级参数
| 参数 | 说明 | 默认值 |
|---|---|---|
| 标题 | 用于给转录文本添加标题,方便区分 | 文件名 |
| 模型 | 选择转录模型 | 无 |
| 语言 | 选择转录语言 | 自动检测 |
| GPU加速 | 是否使用GPU进行推理,可以提高推理速度 | 开启 |
| 翻译为英文 | 自动翻译转录文本(模型提供的能力) | 关闭 |
Whisper 与 Sherpa 参数总览
文件转录支持两类引擎:
- Whisper(最新旗舰大模型):当前最先进的通用语音转录能力之一,适合会议、访谈、课程等多种场景,精度优先时建议首选。
- Sherpa 实时模型(轻量 CPU 友好):不依赖 GPU,在普通性能电脑上也可稳定运行,适合快速转录与大批量基础处理。
Whisper 常用参数(文件转录)
| 参数 | 作用 | 何时调整 |
|---|---|---|
| 场景预设 | 一键组合 VAD、分段长度、上下文等参数 | 先选预设,再做少量微调 |
| 片段转录 | 只转录指定时间范围 | 只需处理某一段音频时 |
| 偏移范围 | 指定开始/结束时间 | 配合“片段转录”使用 |
| 解码策略 | Greedy 更快,Beam Search 更稳 | 错词多时尝试 Beam Search |
| 无语音阈值 | 控制静音/噪音过滤强度 | 幻觉文本多时提高 |
| 翻译为英语 | 输出英文结果 | 需要英文稿或英文字幕时 |
Sherpa 常用参数(文件转录)
| 参数 | 作用 | 何时调整 |
|---|---|---|
| VAD 场景预设(通用 general / 对话 dialogue / 演讲 speech / 会议 meeting / 课程 course / 嘈杂 noisy / 自定义 custom) | 控制断句风格与灵敏度 | 不同素材类型先切换预设 |
| CPU 线程 | 控制推理并行度 | 机器空闲核多时可增加 |
| 最小语音/静音时长 | 控制切段触发阈值 | 短句漏检或碎片太多时调整 |
| 最小/最大片段时长 | 控制切段长度边界 | 句子过碎或过长时调整 |
| 前后补偿与合并间隔 | 改善断句自然度 | 句首句尾被截断时调整 |
场景预设选择建议
- 通用(general):默认通用场景,先从这里开始。
- 对话(dialogue):多人快节奏对话,偏短句切分。
- 演讲(speech)/课程(course):单人长段讲述,偏长句切分。
- 会议(meeting):多人发言 + 停顿较多的会议录音。
- 嘈杂环境(noisy):背景噪声较强,优先抑制误检。
- 自定义(custom):只在预设无法满足时使用,建议每次仅改 1~2 项。
名词解释(易混概念)
- 批量参数:对多个文件一次性应用同一组参数,避免逐个设置。
- 翻译为英文:先识别原语音内容,再输出英文文本,不等于“原文+译文双语输出”。
- 导出字幕(SRT/VTT):带时间轴的文本格式,适合视频播放器和剪辑软件。
实战流程建议(减少返工)
- 先抽样:先用 1~2 个文件验证模型与参数,再批量跑全量数据。
- 先质量后速度:先保证可用文本质量,再考虑提高并发或换更大模型。
- 先统一命名:在标题中加入日期/项目名,后续在笔记页更容易检索。
- 先导出小样:批量前先试导出一份目标格式,避免后期格式不兼容。
任务卡住时排查顺序
- 看任务状态:确认是“下载模型中 / 排队中 / 推理中 / 导出中”哪个阶段。
- 看磁盘与路径:检查模型目录、缓存目录是否可写且空间充足。
- 看引擎与驱动:GPU 失败时先回退 CPU 验证,再处理驱动兼容问题。
- 看源文件质量:异常封装、损坏文件、极端采样率建议先转码。
真实案例(课程回放整理)
一个常见场景是:你有 12 节课程回放,需要 2 天内整理成可检索笔记。
- 先抽 1 节课做参数基线(模型、语言、导出格式)。
- 确认质量可接受后再批量跑,避免 12 节全部返工。
- 转录后先统一纠正术语,再用 AI 助手生成每节课摘要与关键词。
常见误区与替代做法
- 误区:批量任务里混用不同语言素材
替代:按语言拆批次,减少自动语言识别误判。 - 误区:边转录边频繁改参数
替代:一批任务保持同参数,下一批再做 A/B 对比。 - 误区:把导出当最终稿
替代:先在笔记页做一次轻校对,再对外分发。
常见问题
Q: 免费版可以批量转录吗?
A: 默认以账号能力开通状态为准。通常免费版以单文件流程为主,付费版开放批量与更高并发。
Q: 批量转录如何提升速度?
A: 选择合适并发数、使用 GPU、优先轻量模型(在可接受精度下)。
Q: 为什么转录一直卡住?
A: 常见原因是模型未下载、磁盘空间不足、GPU 配置不兼容或源文件异常。
Q: 如何减少幻觉和重复文本?
A: 指定语言、降低温度、合理调整最大上下文与无语音阈值。
限制说明
- 状态:稳定(非 Beta),具体可用项以应用内功能开关为准。
- 模型与高级参数能力受账号套餐与版本策略影响。
- 大模型和高并发任务需要较高硬件资源。
- 导入格式存在编解码差异,极端封装格式可能需先转码。
- 平台:Windows 与 macOS 的主流程一致,但可用 GPU 引擎和权限入口存在差异。
- 更详细参数解释请阅读高级参数转录。