最后更新: 2025-05-02

文件转录

功能概述

文件转录功能允许用户将音视频文件快速转换为文本,支持多种格式和语言。所有处理都在本地完成,确保数据安全和隐私。主要功能包括:

  • 多格式支持:支持主流音视频格式
  • 多语言识别:支持98+种语言转录
  • 智能编辑:支持文本编辑、合并、替换
  • 字幕生成:可导出SRT、VTT等字幕格式
  • 翻译功能:支持文本实时翻译
  • 历史记录:保存所有转录记录,方便查阅

文件转录无需上传文件到服务器,所有操作都是本地完成的,保证了数据的安全和隐私。

快速开始

转录文件方式

你可以通过以下两种方式进行文件转录:

  1. 拖拽文件:直接将文件拖拽到软件指定区域
  2. 选择文件:点击首页中的选择文件按钮

选择文件后将会弹出设置转录参数的弹窗,你可以在这个弹窗中调整、设置各项参数。

文件格式支持

音记AI支持多种音视频文件格式:

  • 音频格式:MP3, WAV, M4A, FLAC, AAC
  • 视频格式:MP4, AVI, MOV, MKV, FLV

以上只列出了一些常用的音视频文件格式,更多格式可自行测试。

转录基本参数

一般来说我们使用基本参数足够了,只有当发现转录的结果不符合预期或错误率很高时,才会去调整高级参数

参数说明默认值
标题用于给转录文本添加标题,方便区分文件名
模型选择转录模型
语言选择转录语言自动检测
GPU加速是否使用GPU进行推理,可以提高推理速度开启
翻译为英文自动翻译转录文本(模型提供的能力)关闭

下面我们会详细介绍部分重要的参数。

1. 转录模型

音记AI支持所有的官方Whisper模型,以及音记AI集成的部分社区模型。针对模型的介绍可以查看概念中的模型部分。

转录之前,你可能需要先在设置-模型中下载对应的模型。

2. 转录语言

OpenAI使用了超过98种语言进行了训练,但是不是需要注意的是它们的WER (单词错字率)并不是一样的,有些语言的WER很低,有些就很高(太高会导致转录结果不准确),按照语音转文本的行业标准基准,WER低于50%的语言是可以接受的。

因此建议使用以下的语言进行转录:

南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、 乌尔都语、越南语和威尔士语。

音记AI中可以选择推荐之外的语言转录,但是模型输出的WER会比较高,结果质量会很低。针对这类情况音记AI通过支持社区模型来缓解这个问题的发生,社区模型是通过对特定语言的微调来降低WER,因此提高了转录的准确性。

音记AI不提供模型微调服务,你需要自己进行微调模型或寻找符合你需求的社区模型再提交给音记AI来评估集成的可行性。

3. 使用GPU

关于GPU的部分内容可以查看GPU转录

4. 翻译为英文

此选项为Whisper模型自带,开启后会将转录的内容直接翻译为英语。

高级参数转录

高级参数转录是对基本参数的进一步优化,适用于对转录结果要求较高的场景。

详细内容请查看高级参数转录

常见问题

Q: 转录一个1小时的音频文件需要多长时间?

A: 这依赖于你的设备性能与使用的模型,使用Large-Turbo-3模型和开启GPU加速时,通常在3分钟以内转录完成。

Q: 转录准确率如何?

A: Whisper的准确度与模型和语言相关,不同语言的WER不同,WER越低,准确度越高。下图是模型Large-v3和Large-v2的WER对比。

Q: 转录需要网络吗?

A: 不需要,转录都在本地完成,没有数据离开您的设备。

Q:为什么转录一直没有进度?

A: 这可能是由于以下原因导致的:

  1. 模型文件缺失:请确保您已下载并安装了所需的模型文件。
  2. 设备性能不足:如果你的设备没有显卡且开启了GPU加速,可能会导致转录速度变慢。
  3. 使用了CPU转录:音记AI支持使用CPU转录,但是不建议在太大的模型中使用CPU转录,因为CPU的性能有限,会导致转录速度变慢。

Q:会什么会转录出不存在的文本?

造成这个现象有多个原因, 常见的是:

  1. 由于背景噪音(比如键盘声、翻页声)的频谱特征与某些音素的频谱特征相似,导致模型识别有误.
  2. Whisper模型训练数据偏差或训练时间不足
  3. 上下文推断错误, 当检测到部分有效片段时,Transformer架构会基于语言模型概率预测后续内容,可能插入符合语境的错误词汇(可在高级设置中开启非语音抑制缓解)

相关参考资料

Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2025. Made by AudioNote, All rights reserved.