GPU转录
运行大模型的最佳设备是GPU,一个好的GPU能让你在各种AI任务中获得最好的体验。
音记AI虽然可以使用CPU进行转录,但是速度与效果可能令人无法接收,因此使用GPU加速转录也就是一个必然的结果,GPU能提高处理速度和效率。
音记AI的GPU加速可以通过三种引擎实现:
- CUDA(Windows)
- Vulkan(Windows)
- CoreML(Mac)
本文档将帮助您了解这三种引擎的相关信息、支持的显卡类型以及如何根据您的硬件和需求选择合适的引擎。
GPU引擎介绍
CUDA引擎
CUDA(Compute Unified Device Architecture)是由 NVIDIA 开发的专有并行计算平台和应用程序编程接口(API)。它允许软件使用 NVIDIA GPU 进行通用计算(GPGPU),提供对 GPU 硬件的直接访问,以加速计算密集型任务。
特点:
- 专为 NVIDIA GPU 设计,性能优化。
- 支持多种编程语言,如 C、C++、Fortran、Python 和 Julia。
- 提供丰富的库和工具,适合需要高性能计算的用户。
适用于需要高性能 GPU 加速的用户,尤其是使用 NVIDIA GPU 的用户。
使用要求:
- 制造商:仅支持 NVIDIA GPU。
- 型号要求:G8x 系列开始的所有 NVIDIA GPU,包括 GeForce、Quadro 和 Tesla 系列。
- VRAM 要求:具体 VRAM 需求取决于所使用的 Whisper 模型,模型越大对显存要求越高,要运行最大的Whisper模型显存最好8G以上。
使用CUDA引擎需要下载CUDA相关的运行库,若本地不存在,切换至CUDA引擎的时候音记AI会提示是否下载。
Vulkan引擎
Vulkan 是一个高性能、低级别的计算 API,旨在提供对 GPU 硬件的直接访问,支持高效的并行处理。它是一个跨平台 API,能够在多种操作系统和硬件平台上运行。
特点:
- 支持多种 GPU 制造商的硬件,包括 NVIDIA、AMD、Intel、Samsung 和 Qualcomm 等。
- 平台无关,兼容性强,适合在不同硬件环境中部署。
- 提供对 GPU 的细粒度控制,适合需要灵活性和广泛兼容性的用户。
适用场景:
- 适用于没有 NVIDIA GPU 但有其他图形加速器的用户,比如AMD GPU。
- 适合需要在多种硬件平台上运行应用程序的用户。
使用要求:
- 制造商:支持多种制造商的 GPU,包括 NVIDIA、AMD、Intel、Samsung 和 Qualcomm 等。
- 型号:只要设备支持 Vulkan API 1.2+ 且有足够的 RAM 和兼容的 Vulkan 驱动程序,即可使用。
- VRAM 要求:具体 VRAM 需求取决于所使用的 Whisper 模型,模型越大对显存要求越高,要运行最大的Whisper模型显存最好8G以上。
CoreML 引擎
CoreML 是苹果公司开发的机器学习框架,专为 macOS、iOS、watchOS 和 tvOS 平台设计。它允许开发者将机器学习模型集成到苹果设备中,利用设备的 CPU、GPU 和神经引擎进行加速。
特点:
- 专为苹果设备设计,充分利用苹果硬件的性能。
- 支持多种机器学习模型,包括 Whisper 转录模型。
- 提供高效的模型加载和推理,适合在苹果设备上运行。
- Intel系列芯片的设备也支持但性能一般
- 所有M系列芯片都支持
只适用于在 macOS 系统上运行利用苹果设备硬件加速的用户。
使用要求:
- 制造商:仅支持苹果设备。
- 型号:支持 macOS 系统上的苹果设备,包括 MacBook、iMac、Mac mini 等。
- 硬件要求:需要 macOS 10.13 或更高版本,以及支持 Metal 的 GPU。
如何选择合适的GPU引擎
Windows系统中需要根据GPU设备判断应该选择CUDA引擎或Vulkan引擎,而Mac系统默认使用CoreML。
CUDA引擎和Vulkan引擎都可以使用的情况下,推荐选择CUDA引擎,因为CUDA引擎的性能更优。
- 对于使用 NVIDIA GPU 的用户,推荐选择 CUDA 引擎。
- 对于不使用NVIDIA GPU 的用户,推荐选择 Vulkan 引擎。
- 对于没有GPU的用户,推荐选择 Vulkan 引擎(当核显可用的时候开启使用GPU会尝试使用核显进行转录)。
开启快速注意力(Flash Attention)
快速注意力是一种优化技术,旨在提高 Transformer 模型(包括 Whisper 模型)在注意力机制上的计算效率和速度。它通过减少内存使用和加速注意力计算来实现这一目标,尤其在 GPU 上表现显著。具体来说,快速注意力将注意力计算分解为更小的块,并在 GPU 的快速内存(SRAM)中进行计算,从而减少对主内存(HBM)的访问,提升效率。
当使用GPU进行转录时,你可以开启快速注意力来提高模型运行效率。
快速注意力使用条件如下:
- 硬件依赖:快速注意力 通常与 GPU 相关联,尤其是支持 CUDA 的 GPU 环境。它利用 GPU 的并行处理能力,因此在非 GPU 环境下可能无法使用。
- 软件支持:需要模型和相关库的支持。例如,在 Whisper 模型中,可能需要安装 快速注意力 2.0 等特定库才能启用。
- 适用范围:快速注意力 主要适用于支持优化的 Transformer 模型,对于未适配的模型或环境,可能无法开启。
实测开启快速注意力后的转录能小幅提升转录速度,但具体提升幅度取决于模型、硬件和环境。