最后更新: 2025-04-01

概念

在使用软件前,了解以下概念将帮助您更好地利用各项功能。

音记AI除了支持官方的Whisper模型外,还支持社区模型和实时模型,你可以针对你的设备与使用场景选择合适的模型。

什么是Whisper模型?

Whisper 是由 OpenAI 开发的一系列语音识别模型,能够将语音转换为文本,并支持多种语言和翻译功能。

模型根据参数量和性能的不同分为多个版本:

  • Tiny
  • Base
  • Small
  • Medium
  • Large-v2
  • Large-v3
  • Turbo-v3-Turbo

Tiny、Base、Small、Medium都有对应的纯英语模型,如果你只需要识别英语并且设备性能一般,可以使用纯英语模型来平衡转录效果与性能。

官方Whisper模型

这些模型根据参数量和性能的不同分为多个版本,以适应不同的设备和使用场景。

Tiny模型

Tiny 模型是 Whisper 系列中最小的模型,参数量为 39M。它专为低性能设备设计,例如移动设备或嵌入式系统。尽管体积小,它仍能完成基本的语音识别任务。

优点:

  1. 体积小,资源占用低,适合低性能设备。
  2. 推理速度快,适合实时性要求高的场景。
  3. 能耗低,适合电池供电设备。

缺点是由于参数量少,其在复杂语音识别和多语言支持上的效果一般。

Base模型

Base 模型参数量为 74M,性能比 Tiny 模型有所提升,适合对准确度有一定要求的场景。

优点:

  1. 在保持较小体积的同时,提供更高的识别准确度。
  2. 适合资源有限但需一定精度的设备。
  3. 支持多语言识别和翻译功能。

Small模型

Small 模型参数量为 244M,属于中等大小型号,适用于性能适中的设备以及大多数日常任务。

优点:

  1. 识别准确度较高,适合大多数日常语音任务。
  2. 支持多语言识别和翻译,功能全面。
  3. 在中等性能设备上运行时提供良好的平衡。

Medium模型

Medium 模型参数量为 769M,功能更强大,适合需要较高准确度的场景。

优点:

  1. 识别准确度高,能处理复杂语音环境。
  2. 支持多语言识别和翻译,适用于多语言场景。
  3. 适合高性能设备,提供优质体验。

Large-v2模型

Large-v2 是 Large 模型的改进版,参数量仍为 1550M,通过优化训练数据和架构提升性能。

优点:

  1. 比 Large 模型识别准确度更高。
  2. 优化架构,提升推理效率。
  3. 适合对准确度要求极高的场景。

Large-v3模型

Large-v3 是最新版本,参数量为 1550M,进一步优化了准确度和多语言支持。

优点:

  1. 识别准确度最高,能处理极其复杂的语音环境。
  2. 支持更多语言和方言,覆盖全球应用。
  3. 优化架构,提升推理速度和资源效率。

Large-v3-Turbo模型

Turbo 模型是 Large-v3 的蒸馏版本,参数量为 798M,注重速度和效率。

优点:

  1. 推理速度比 Large-v3 快 8 倍。
  2. 显存使用效率提高 40%。
  3. 准确度仅微降,适合速度和资源要求高的场景。

如何选择模型可以查看这篇建议

社区模型

社区模型来源于开源社区,质量和稳定性无法保证,使用前请确保了解其具体实现和适用场景。

社区模型是由社区成员开发的模型,它们通常针对特定的语言进行了微调和训练,具有更好的性能和准确度。

音记AI将部分社区模型集成到软件中,你可以在软件中选择使用这些模型。若现有的社区模型无法满足你的需求,你也可以在Hugging Face寻找合适的模型提交反馈,音记AI将会评估此模型集成到音记AI中的可行性。

实时模型

实时模型目前只支持少量的语言:中文、英文、法语

实时模型是一种能够实时识别语音信号的技术,它可以用于语音助手、语音识别等应用。音记AI支持实时模型,你可以在软件中选择使用实时模型。

实时模型的特点是:

  • 只依赖CPU,性能要求低
  • 支持双语识别
  • 识别速度快、准确度高

由于是为实时场景设计的,因此在复杂语音环境下的识别效果可能会稍差,且断句可能不够准确。

Whisper大模型驱动 - 音视频秒转文字,声波流式转录,让每个声音都成篇章

Contact us

Email
Copyright © 2025. Made by AudioNote, All rights reserved.