NVIDIA 多实例 GPU

wrsiyu · 2024 年3 月 1 日 06:02

多实例 GPU (MIG) 扩展了每个 NVIDIA H100、A100 及 A30 Tensor Core GPU 的性能和价值。MIG 可将 GPU 划分为多达七个实例，每个实例均完全独立于各自的高带宽显存、缓存和计算核心。如此一来，管理员便能支持所有大小的工作负载，且服务质量 (QoS) 稳定可靠，让每位用户都能享用加速计算资源。

基本原理
Ampere架构通过硬件上面的设计使得GPU能够创建子GPU（GI），GI在计算、内存带宽、故障隔离、错误计算、错误恢复方面都相对独立，其服务质量（QoS）能够较好的保证。MIG的基本方法（原理）就是能完成资源的分块+组合 ，即对物理卡上能用的物理资源进行切分，这些资源包括：系统通道、控制总线、算力单元（TPC）、全局显存、L2 cache、数据总线等；然后将分块后的资源重新组合，让每个切分后的子GPU 能够做到数据保护、故障隔离独立、服务稳定 。

命令和配置
我们在linux系统中使用 nvidia-smi命令启用和配置MIG。
启用MIG模式

$ nvidia-smi -i <GPU IDs> -mig 1

关闭MIG模式

$ nvidia-smi -i <GPU IDs> -mig 0

只启用MIG模式是不能工作的，后续要根据自己的配置选择英伟达驱动中的实例或者添加自己的实例，进行配置。
另外需要注意的是，MIG配置在重启之后不会自动保存，需要管理员重新配置。