📚 文档
最后更新: 2026-02-08

文件转录

TODO(截图替换):文件转录参数弹窗(App 2.0) 建议包含:文件列表、模型/语言选择、GPU 开关、翻译开关、批量应用参数按钮。 建议文件名:file-transcription-dialog-v2.png

功能边界

文件转录负责“单文件或批量文件”的离线转写流程,包括:

  • 文件导入(拖拽/选择)
  • 模型与语言配置
  • 转录队列执行
  • 笔记页查看、编辑与导出

不负责:

适用场景

  • 会议录音、采访音频、课程视频归档
  • 批量整理播客/直播回放素材
  • 需要字幕导出或多格式文本归档的场景

操作步骤

  1. 在首页点击“转录文件”或直接拖拽媒体文件。
  2. 在参数弹窗中选择模型、语言、是否启用 GPU、是否翻译为英文。
  3. 单文件直接开始转录;多文件将进入批量参数配置流程。
  4. 转录完成后自动进入笔记页,可继续编辑、AI 对话、导出。
  5. 如需统一参数,使用“应用到所有文件”提高批量效率。

文件格式支持

音记AI支持多种音视频文件格式:

  • 音频格式:MP3, WAV, M4A, FLAC, AAC
  • 视频格式:MP4, AVI, MOV, MKV, FLV

实际可导入格式以应用文件选择器显示为准。

关键参数建议

  • 轻量任务:Tiny/Base + 自动语言
  • 平衡精度:Small/Medium + 指定语言
  • 高精度任务:Large-v3 或 Large-v3-Turbo + GPU
  • 结果异常时再调节高级参数
参数说明默认值
标题用于给转录文本添加标题,方便区分文件名
模型选择转录模型
语言选择转录语言自动检测
GPU加速是否使用GPU进行推理,可以提高推理速度开启
翻译为英文自动翻译转录文本(模型提供的能力)关闭

名词解释(易混概念)

  • 批量参数:对多个文件一次性应用同一组参数,避免逐个设置。
  • 翻译为英文:先识别原语音内容,再输出英文文本,不等于“原文+译文双语输出”。
  • 导出字幕(SRT/VTT):带时间轴的文本格式,适合视频播放器和剪辑软件。

实战流程建议(减少返工)

  1. 先抽样:先用 1~2 个文件验证模型与参数,再批量跑全量数据。
  2. 先质量后速度:先保证可用文本质量,再考虑提高并发或换更大模型。
  3. 先统一命名:在标题中加入日期/项目名,后续在笔记页更容易检索。
  4. 先导出小样:批量前先试导出一份目标格式,避免后期格式不兼容。

任务卡住时排查顺序

  1. 看任务状态:确认是“下载模型中 / 排队中 / 推理中 / 导出中”哪个阶段。
  2. 看磁盘与路径:检查模型目录、缓存目录是否可写且空间充足。
  3. 看引擎与驱动:GPU 失败时先回退 CPU 验证,再处理驱动兼容问题。
  4. 看源文件质量:异常封装、损坏文件、极端采样率建议先转码。

真实案例(课程回放整理)

一个常见场景是:你有 12 节课程回放,需要 2 天内整理成可检索笔记。

  1. 先抽 1 节课做参数基线(模型、语言、导出格式)。
  2. 确认质量可接受后再批量跑,避免 12 节全部返工。
  3. 转录后先统一纠正术语,再用 AI 助手生成每节课摘要与关键词。

常见误区与替代做法

  • 误区:批量任务里混用不同语言素材
    替代:按语言拆批次,减少自动语言识别误判。
  • 误区:边转录边频繁改参数
    替代:一批任务保持同参数,下一批再做 A/B 对比。
  • 误区:把导出当最终稿
    替代:先在笔记页做一次轻校对,再对外分发。

常见问题

Q: 免费版可以批量转录吗?
A: 默认以账号能力开通状态为准。通常免费版以单文件流程为主,付费版开放批量与更高并发。

Q: 批量转录如何提升速度?
A: 选择合适并发数、使用 GPU、优先轻量模型(在可接受精度下)。

Q: 为什么转录一直卡住?
A: 常见原因是模型未下载、磁盘空间不足、GPU 配置不兼容或源文件异常。

Q: 如何减少幻觉和重复文本?
A: 指定语言、降低温度、合理调整最大上下文与无语音阈值。

限制说明

  • 状态:稳定(非 Beta),具体可用项以应用内功能开关为准。
  • 模型与高级参数能力受账号套餐与版本策略影响。
  • 大模型和高并发任务需要较高硬件资源。
  • 导入格式存在编解码差异,极端封装格式可能需先转码。
  • 平台:Windows 与 macOS 的主流程一致,但可用 GPU 引擎和权限入口存在差异。
  • 更详细参数解释请阅读高级参数转录

相关参考资料

Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2026. Made by AudioNote, All rights reserved.