📚 文档

面向音频、视频和批量素材的文件转录指南，帮助你在准确率、速度和整理成本之间做出合适选择。

📚 文档文档

文件转录

转录

文件转录参数截图

真实截图

这页解决什么问题

文件转录是 Audio Note 最稳定、最容易建立标准流程的一条主线。它适合：

会议录音、采访音频、课程视频、播客回放
需要高质量文本、字幕或长期归档的素材
想先做样本验证，再批量放大的工作流

如果你不确定第一条正式任务该从哪里开始，通常就从文件转录开始。

什么时候用，什么时候不要用

优先用文件转录的情况

你更看重准确率，而不是立即出字
你需要批量处理素材
你需要导出 TXT、Markdown、SRT、VTT 等结果
你希望把“转录 -> 笔记 -> AI -> 导出”做成标准流程

不要先用文件转录的情况

你要做的是边说边出字，应该先看麦克风实时转录
你的素材还在网页平台上，应该先看链接转录
你想自动监听目录并持续入队，应该先看文件夹监控

推荐工作流

导入 1 个真实样本，先做基线验证。
选择 Whisper 或实时模型，并固定语言、模型和导出目标。
结果可接受后，再把同一组参数应用到整批素材。
转录完成后统一进入笔记页整理文本。
需要摘要、行动项或润色时，再接入AI助手。

这个流程的重点不是“先把所有文件跑完”，而是“先证明这套参数对这类素材有效”。

关键选择

1. 先选 Whisper 还是实时模型

场景	第一选择	说明
长音频、课程、会议归档	Whisper	更适合追求准确率和后续审校
低性能设备、只要快速初稿	实时模型	速度更稳，对设备更友好
高性能 GPU + 仍然需要较高精度	Whisper	GPU 充分时，Whisper 通常更值得优先验证

2. 先固定哪些参数

第一次做文件转录时，先固定这四项：

模型
语言
是否启用 GPU
导出目标

高级参数留到“结果已经接近可用，但还差一点”的时候再看，见高级参数转录。

3. 什么时候值得开 GPU

长音频
中大模型
批量任务
你已经确认 GPU 路线稳定，不会因为驱动或运行库反复失败

如果你主要使用实时模型，GPU 往往不是第一优先项。

常见误区与排障

把不同语言的素材混进同一批任务 建议按语言、场景或用途拆批次，减少误判和返工。
没有做样本验证就直接批量跑 先跑 1~2 个样本文件，确认结果和导出格式都合适。
把首轮导出直接当最终稿 先在笔记页统一校对术语、时间、专有名词，再对外分发。
一出问题就同时改模型、参数、GPU 每次只改一个变量，才能知道问题到底出在哪里。

如果任务卡住，优先按这个顺序排查：

模型是否已经下载完整
磁盘空间和缓存路径是否正常
语言和模型是否匹配素材
GPU 或运行库是否稳定
源文件本身是否损坏或封装异常

下一步阅读

想先从网页素材开始：链接转录
想做持续自动入队：文件夹监控
转完之后怎么整理结果：笔记
结果还不够稳，准备调参：高级参数转录

Whisper大模型驱动 - 音视频秒转文字，声波流式转录，让每个声音都成篇章

Link

主页特性下载定价文档常见问题

Legal

隐私策略服务条款

Contact us

Copyright © 2026. Made by AudioNote, All rights reserved.