📚 文档
最后更新: 2026-02-08文件转录

TODO(截图替换):文件转录参数弹窗(App 2.0) 建议包含:文件列表、模型/语言选择、GPU 开关、翻译开关、批量应用参数按钮。 建议文件名:
file-transcription-dialog-v2.png
功能边界
文件转录负责“单文件或批量文件”的离线转写流程,包括:
- 文件导入(拖拽/选择)
- 模型与语言配置
- 转录队列执行
- 笔记页查看、编辑与导出
不负责:
适用场景
- 会议录音、采访音频、课程视频归档
- 批量整理播客/直播回放素材
- 需要字幕导出或多格式文本归档的场景
操作步骤
- 在首页点击“转录文件”或直接拖拽媒体文件。
- 在参数弹窗中选择模型、语言、是否启用 GPU、是否翻译为英文。
- 单文件直接开始转录;多文件将进入批量参数配置流程。
- 转录完成后自动进入笔记页,可继续编辑、AI 对话、导出。
- 如需统一参数,使用“应用到所有文件”提高批量效率。
文件格式支持
音记AI支持多种音视频文件格式:
- 音频格式:MP3, WAV, M4A, FLAC, AAC
- 视频格式:MP4, AVI, MOV, MKV, FLV
实际可导入格式以应用文件选择器显示为准。
关键参数建议
- 轻量任务:Tiny/Base + 自动语言
- 平衡精度:Small/Medium + 指定语言
- 高精度任务:Large-v3 或 Large-v3-Turbo + GPU
- 结果异常时再调节高级参数
| 参数 | 说明 | 默认值 |
|---|---|---|
| 标题 | 用于给转录文本添加标题,方便区分 | 文件名 |
| 模型 | 选择转录模型 | 无 |
| 语言 | 选择转录语言 | 自动检测 |
| GPU加速 | 是否使用GPU进行推理,可以提高推理速度 | 开启 |
| 翻译为英文 | 自动翻译转录文本(模型提供的能力) | 关闭 |
名词解释(易混概念)
- 批量参数:对多个文件一次性应用同一组参数,避免逐个设置。
- 翻译为英文:先识别原语音内容,再输出英文文本,不等于“原文+译文双语输出”。
- 导出字幕(SRT/VTT):带时间轴的文本格式,适合视频播放器和剪辑软件。
实战流程建议(减少返工)
- 先抽样:先用 1~2 个文件验证模型与参数,再批量跑全量数据。
- 先质量后速度:先保证可用文本质量,再考虑提高并发或换更大模型。
- 先统一命名:在标题中加入日期/项目名,后续在笔记页更容易检索。
- 先导出小样:批量前先试导出一份目标格式,避免后期格式不兼容。
任务卡住时排查顺序
- 看任务状态:确认是“下载模型中 / 排队中 / 推理中 / 导出中”哪个阶段。
- 看磁盘与路径:检查模型目录、缓存目录是否可写且空间充足。
- 看引擎与驱动:GPU 失败时先回退 CPU 验证,再处理驱动兼容问题。
- 看源文件质量:异常封装、损坏文件、极端采样率建议先转码。
真实案例(课程回放整理)
一个常见场景是:你有 12 节课程回放,需要 2 天内整理成可检索笔记。
- 先抽 1 节课做参数基线(模型、语言、导出格式)。
- 确认质量可接受后再批量跑,避免 12 节全部返工。
- 转录后先统一纠正术语,再用 AI 助手生成每节课摘要与关键词。
常见误区与替代做法
- 误区:批量任务里混用不同语言素材
替代:按语言拆批次,减少自动语言识别误判。 - 误区:边转录边频繁改参数
替代:一批任务保持同参数,下一批再做 A/B 对比。 - 误区:把导出当最终稿
替代:先在笔记页做一次轻校对,再对外分发。
常见问题
Q: 免费版可以批量转录吗?
A: 默认以账号能力开通状态为准。通常免费版以单文件流程为主,付费版开放批量与更高并发。
Q: 批量转录如何提升速度?
A: 选择合适并发数、使用 GPU、优先轻量模型(在可接受精度下)。
Q: 为什么转录一直卡住?
A: 常见原因是模型未下载、磁盘空间不足、GPU 配置不兼容或源文件异常。
Q: 如何减少幻觉和重复文本?
A: 指定语言、降低温度、合理调整最大上下文与无语音阈值。
限制说明
- 状态:稳定(非 Beta),具体可用项以应用内功能开关为准。
- 模型与高级参数能力受账号套餐与版本策略影响。
- 大模型和高并发任务需要较高硬件资源。
- 导入格式存在编解码差异,极端封装格式可能需先转码。
- 平台:Windows 与 macOS 的主流程一致,但可用 GPU 引擎和权限入口存在差异。
- 更详细参数解释请阅读高级参数转录。