概念
在使用软件前,了解以下概念将帮助您更好地利用各项功能。
音记AI除了支持官方的Whisper模型外,还支持社区模型和实时模型,你可以针对你的设备与使用场景选择合适的模型。
什么是Whisper模型?
Whisper 是由 OpenAI 开发的一系列语音识别模型,能够将语音转换为文本,并支持多种语言和翻译功能。
模型根据参数量和性能的不同分为多个版本:
- Tiny
- Base
- Small
- Medium
- Large-v2
- Large-v3
- Turbo-v3-Turbo
Tiny、Base、Small、Medium都有对应的纯英语模型,如果你只需要识别英语并且设备性能一般,可以使用纯英语模型来平衡转录效果与性能。
官方Whisper模型
这些模型根据参数量和性能的不同分为多个版本,以适应不同的设备和使用场景。
Tiny模型
Tiny 模型是 Whisper 系列中最小的模型,参数量为 39M。它专为低性能设备设计,例如移动设备或嵌入式系统。尽管体积小,它仍能完成基本的语音识别任务。
优点:
- 体积小,资源占用低,适合低性能设备。
- 推理速度快,适合实时性要求高的场景。
- 能耗低,适合电池供电设备。
缺点是由于参数量少,其在复杂语音识别和多语言支持上的效果一般。
Base模型
Base 模型参数量为 74M,性能比 Tiny 模型有所提升,适合对准确度有一定要求的场景。
优点:
- 在保持较小体积的同时,提供更高的识别准确度。
- 适合资源有限但需一定精度的设备。
- 支持多语言识别和翻译功能。
Small模型
Small 模型参数量为 244M,属于中等大小型号,适用于性能适中的设备以及大多数日常任务。
优点:
- 识别准确度较高,适合大多数日常语音任务。
- 支持多语言识别和翻译,功能全面。
- 在中等性能设备上运行时提供良好的平衡。
Medium模型
Medium 模型参数量为 769M,功能更强大,适合需要较高准确度的场景。
优点:
- 识别准确度高,能处理复杂语音环境。
- 支持多语言识别和翻译,适用于多语言场景。
- 适合高性能设备,提供优质体验。
Large-v2模型
Large-v2 是 Large 模型的改进版,参数量仍为 1550M,通过优化训练数据和架构提升性能。
优点:
- 比 Large 模型识别准确度更高。
- 优化架构,提升推理效率。
- 适合对准确度要求极高的场景。
Large-v3模型
Large-v3 是最新版本,参数量为 1550M,进一步优化了准确度和多语言支持。
优点:
- 识别准确度最高,能处理极其复杂的语音环境。
- 支持更多语言和方言,覆盖全球应用。
- 优化架构,提升推理速度和资源效率。
Large-v3-Turbo模型
Turbo 模型是 Large-v3 的蒸馏版本,参数量为 798M,注重速度和效率。
优点:
- 推理速度比 Large-v3 快 8 倍。
- 显存使用效率提高 40%。
- 准确度仅微降,适合速度和资源要求高的场景。
如何选择模型可以查看这篇建议。
社区模型
社区模型来源于开源社区,质量和稳定性无法保证,使用前请确保了解其具体实现和适用场景。
社区模型是由社区成员开发的模型,它们通常针对特定的语言进行了微调和训练,具有更好的性能和准确度。
音记AI将部分社区模型集成到软件中,你可以在软件中选择使用这些模型。若现有的社区模型无法满足你的需求,你也可以在Hugging Face寻找合适的模型提交反馈,音记AI将会评估此模型集成到音记AI中的可行性。
实时模型
实时模型目前只支持少量的语言:中文、英文、法语
实时模型是一种能够实时识别语音信号的技术,它可以用于语音助手、语音识别等应用。音记AI支持实时模型,你可以在软件中选择使用实时模型。
实时模型的特点是:
- 只依赖CPU,性能要求低
- 支持双语识别
- 识别速度快、准确度高
由于是为实时场景设计的,因此在复杂语音环境下的识别效果可能会稍差,且断句可能不够准确。