最后更新: 2025-05-17

GPU转录

setting-model-gpu

运行大模型的最佳设备是GPU，一个好的GPU能让你在各种AI任务中获得最好的体验。

音记AI虽然可以使用CPU进行转录，但是速度与效果可能令人无法接收，因此使用GPU加速转录也就是一个必然的结果，GPU能提高处理速度和效率。

音记AI的GPU加速可以通过三种引擎实现：

CUDA（Windows）
Vulkan（Windows）
CoreML（Mac）

本文档将帮助您了解这三种引擎的相关信息、支持的显卡类型以及如何根据您的硬件和需求选择合适的引擎。

GPU引擎介绍

CUDA引擎

CUDA（Compute Unified Device Architecture）是由 NVIDIA 开发的专有并行计算平台和应用程序编程接口（API）。它允许软件使用 NVIDIA GPU 进行通用计算（GPGPU），提供对 GPU 硬件的直接访问，以加速计算密集型任务。

特点：

专为 NVIDIA GPU 设计，性能优化。
支持多种编程语言，如 C、C++、Fortran、Python 和 Julia。
提供丰富的库和工具，适合需要高性能计算的用户。

适用于需要高性能 GPU 加速的用户，尤其是使用 NVIDIA GPU 的用户。

使用要求：

制造商：仅支持 NVIDIA GPU。
型号要求：G8x 系列开始的所有 NVIDIA GPU，包括 GeForce、Quadro 和 Tesla 系列。
VRAM 要求：具体 VRAM 需求取决于所使用的 Whisper 模型，模型越大对显存要求越高，要运行最大的Whisper模型显存最好8G以上。

使用CUDA引擎需要下载CUDA相关的运行库，若本地不存在，切换至CUDA引擎的时候音记AI会提示是否下载。

Vulkan引擎

Vulkan 是一个高性能、低级别的计算 API，旨在提供对 GPU 硬件的直接访问，支持高效的并行处理。它是一个跨平台 API，能够在多种操作系统和硬件平台上运行。

特点：

支持多种 GPU 制造商的硬件，包括 NVIDIA、AMD、Intel、Samsung 和 Qualcomm 等。
平台无关，兼容性强，适合在不同硬件环境中部署。
提供对 GPU 的细粒度控制，适合需要灵活性和广泛兼容性的用户。

适用场景：

适用于没有 NVIDIA GPU 但有其他图形加速器的用户，比如AMD GPU。
适合需要在多种硬件平台上运行应用程序的用户。

使用要求：

制造商：支持多种制造商的 GPU，包括 NVIDIA、AMD、Intel、Samsung 和 Qualcomm 等。
型号：只要设备支持 Vulkan API 1.2+ 且有足够的 RAM 和兼容的 Vulkan 驱动程序，即可使用。
VRAM 要求：具体 VRAM 需求取决于所使用的 Whisper 模型，模型越大对显存要求越高，要运行最大的Whisper模型显存最好8G以上。

CoreML 引擎

CoreML 是苹果公司开发的机器学习框架，专为 macOS、iOS、watchOS 和 tvOS 平台设计。它允许开发者将机器学习模型集成到苹果设备中，利用设备的 CPU、GPU 和神经引擎进行加速。

特点：

专为苹果设备设计，充分利用苹果硬件的性能。
支持多种机器学习模型，包括 Whisper 转录模型。
提供高效的模型加载和推理，适合在苹果设备上运行。
Intel系列芯片的设备也支持但性能一般
所有M系列芯片都支持

只适用于在 macOS 系统上运行利用苹果设备硬件加速的用户。

使用要求：

制造商：仅支持苹果设备。
型号：支持 macOS 系统上的苹果设备，包括 MacBook、iMac、Mac mini 等。
硬件要求：需要 macOS 10.13 或更高版本，以及支持 Metal 的 GPU。

如何选择合适的GPU引擎

Windows系统中需要根据GPU设备判断应该选择CUDA引擎或Vulkan引擎，而Mac系统默认使用CoreML。

CUDA引擎和Vulkan引擎都可以使用的情况下，推荐选择CUDA引擎，因为CUDA引擎的性能更优。

对于使用 NVIDIA GPU 的用户，推荐选择 CUDA 引擎。
对于不使用NVIDIA GPU 的用户，推荐选择 Vulkan 引擎。
对于没有GPU的用户，推荐选择 Vulkan 引擎（当核显可用的时候开启使用GPU会尝试使用核显进行转录）。

开启快速注意力（Flash Attention）

快速注意力是一种优化技术，旨在提高 Transformer 模型（包括 Whisper 模型）在注意力机制上的计算效率和速度。它通过减少内存使用和加速注意力计算来实现这一目标，尤其在 GPU 上表现显著。具体来说，快速注意力将注意力计算分解为更小的块，并在 GPU 的快速内存（SRAM）中进行计算，从而减少对主内存（HBM）的访问，提升效率。

file-transcription

当使用GPU进行转录时，你可以开启快速注意力来提高模型运行效率。

快速注意力使用条件如下：

硬件依赖：快速注意力通常与 GPU 相关联，尤其是支持 CUDA 的 GPU 环境。它利用 GPU 的并行处理能力，因此在非 GPU 环境下可能无法使用。
软件支持：需要模型和相关库的支持。例如，在 Whisper 模型中，可能需要安装快速注意力 2.0 等特定库才能启用。
适用范围：快速注意力主要适用于支持优化的 Transformer 模型，对于未适配的模型或环境，可能无法开启。

实测开启快速注意力后的转录能小幅提升转录速度，但具体提升幅度取决于模型、硬件和环境。