📚 文档
面向音频、视频和批量素材的文件转录指南,帮助你在准确率、速度和整理成本之间做出合适选择。
📚 文档文档
文件转录
转录
文件转录参数截图
这页解决什么问题
文件转录是 Audio Note 最稳定、最容易建立标准流程的一条主线。它适合:
- 会议录音、采访音频、课程视频、播客回放
- 需要高质量文本、字幕或长期归档的素材
- 想先做样本验证,再批量放大的工作流
如果你不确定第一条正式任务该从哪里开始,通常就从文件转录开始。
什么时候用,什么时候不要用
优先用文件转录的情况
- 你更看重准确率,而不是立即出字
- 你需要批量处理素材
- 你需要导出 TXT、Markdown、SRT、VTT 等结果
- 你希望把“转录 -> 笔记 -> AI -> 导出”做成标准流程
不要先用文件转录的情况
推荐工作流
- 导入 1 个真实样本,先做基线验证。
- 选择 Whisper 或实时模型,并固定语言、模型和导出目标。
- 结果可接受后,再把同一组参数应用到整批素材。
- 转录完成后统一进入笔记页整理文本。
- 需要摘要、行动项或润色时,再接入AI助手。
这个流程的重点不是“先把所有文件跑完”,而是“先证明这套参数对这类素材有效”。
关键选择
1. 先选 Whisper 还是实时模型
| 场景 | 第一选择 | 说明 |
|---|---|---|
| 长音频、课程、会议归档 | Whisper | 更适合追求准确率和后续审校 |
| 低性能设备、只要快速初稿 | 实时模型 | 速度更稳,对设备更友好 |
| 高性能 GPU + 仍然需要较高精度 | Whisper | GPU 充分时,Whisper 通常更值得优先验证 |
2. 先固定哪些参数
第一次做文件转录时,先固定这四项:
- 模型
- 语言
- 是否启用 GPU
- 导出目标
高级参数留到“结果已经接近可用,但还差一点”的时候再看,见高级参数转录。
3. 什么时候值得开 GPU
- 长音频
- 中大模型
- 批量任务
- 你已经确认 GPU 路线稳定,不会因为驱动或运行库反复失败
如果你主要使用实时模型,GPU 往往不是第一优先项。
常见误区与排障
- 把不同语言的素材混进同一批任务 建议按语言、场景或用途拆批次,减少误判和返工。
- 没有做样本验证就直接批量跑 先跑 1~2 个样本文件,确认结果和导出格式都合适。
- 把首轮导出直接当最终稿 先在笔记页统一校对术语、时间、专有名词,再对外分发。
- 一出问题就同时改模型、参数、GPU 每次只改一个变量,才能知道问题到底出在哪里。
如果任务卡住,优先按这个顺序排查:
- 模型是否已经下载完整
- 磁盘空间和缓存路径是否正常
- 语言和模型是否匹配素材
- GPU 或运行库是否稳定
- 源文件本身是否损坏或封装异常