A100 MIG 使用说明
官方手册
阅读约定
美元符号 “$” 号开头的黄色标注,表示一个命令行界面的命令。
前提条件
当需要在支持 MIG 模式的 GPU 中开启 MIG,则需要满足以下前提条件和最低的软件版本:
- MIG 仅在 A100 与 H100上支持(截至2022年6月7日)
- CUDA 11 和 NVIDIA 驱动程序450.80.02或更高版本
- CUDA 11 支持的 Linux 操作系统发行版
- 如果运行容器或使用Kubernetes,则:(1) NVIDIA容器工具包(NVIDIA-docker2):v2.5.0或更高版本 (2)NVIDIA K8s设备插件:v0.7.0或更高版本 (3)NVIDIA gpu功能发现:v0.2.0或更高版本
MIG 可以使用 NVIDIA 管理库(NVML,NVIDIA Management Library)的 API 或其命令行界面 $ nvidia-smi 进行编程管理。
有关 MIG 命令的更多信息,请参阅 $ man nvidia-smi 或 $ nvidia-smi mig --help。有关MIG 管理 API 的信息,请参阅 CUDA 11 中包含的 NVML 的头文件(NVML.11.0.h)。
开启MIG模式(Enable MIG Mode)
默认情况下,NVIDIA A100 上未启用 MIG 模式。 在 linux 上运行 $ nvidia-smi 命令会显示 MIG 模式已禁用。
可以使用以下命令在每个 GPU 上启用 MIG 模式:
$ nvidia-smi -i <GPU IDs> -mig 1
注意:
- 可以使用逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 来选择GPU。
- 如果未指定 GPU ID,则 MIG 模式将应用于系统上的所有 GPU。
- MIG 模式(禁用或启用状态)在系统重新启动前后保持不变。
例如:
$ sudo nvidia-smi -i 0 -mig 1
Enabled MIG Mode for GPU 00000000:36:00.0
All done.
关闭MIG模式(Disable MIG Mode)
可以使用以下命令在每个 GPU 上关闭 MIG 模式:
$ nvidia-smi -i <GPU IDs> -mig 0
Disabled MIG Mode for GPU 00000000:36:00.0
All done.
GPU实例配置文件
NVIDIA 驱动程序提供了许多配置文件,用户可以在 A100 中配置 MIG 功能时选择这些配置文件。配置文件是用户可以创建的 GPU 实例的大小和功能。驱动程序还提供有关放置的信息,这些信息指示可以创建的实例的类型和数量。
$ sudo nvidia-smi mig -lgip
+-----------------------------------------------------------------------------+
| GPU instance profiles: |
| GPU Name ID Instances Memory P2P SM DEC ENC |
| Free/Total GiB CE JPEG OFA |
|=============================================================================|
| 0 MIG 1g.5gb 19 0/7 4.75 No 14 0 0 |
| 1 0 0 |
+-----------------------------------------------------------------------------+
| 0 MIG 1g.5gb+me 20 0/1 4.75 No 14 1 0 |
| 1 1 1 |
+-----------------------------------------------------------------------------+
| 0 MIG 2g.10gb 14 0/3 9.75 No 28 1 0 |
| 2 0 0 |
+-----------------------------------------------------------------------------+
| 0 MIG 3g.20gb 9 0/2 19.62 No 42 2 0 |
| 3 0 0 |
+-----------------------------------------------------------------------------+
| 0 MIG 4g.20gb 5 0/1 19.62 No 56 2 0 |
| 4 0 0 |
+-----------------------------------------------------------------------------+
| 0 MIG 7g.40gb 0 0/1 39.50 No 98 5 0 |
| 7 1 1 |
+-----------------------------------------------------------------------------+
使用 $ nvidia-smi mig -lgipp 命令可列出可用的分配安排。 分配安排的语法是 {<index>}:<GPU Slice Count>,并显示实例在 GPU 上的分配安排。显示的放置索引指示配置文件如何映射到 GPU 上,如支持的配置文件表所示。
$ sudo nvidia-smi mig -lgipp
GPU 0 Profile ID 19 Placements: {0,1,2,3,4,5,6}:1
GPU 0 Profile ID 20 Placements: {0,1,2,3,4,5,6}:1
GPU 0 Profile ID 14 Placements: {0,2,4}:2
GPU 0 Profile ID 9 Placements: {0,4}:4
GPU 0 Profile ID 5 Placement : {0}:4
GPU 0 Profile ID 0 Placement : {0}:8
该命令显示用户可以创建两个 3g.20gb 类型的实例(配置文件ID 9)或七个 1g.5gb 实例(配置文件ID 19)。
创建GPU实例
在开始使用MIG之前,用户需要使用 $ nvidia-smi mig -cgi 选项来创建GPU实例,可以使用以下三个选项之一指定要创建的实例配置文件:
- Profile ID (e.g. 9, 14, 5)
- Short name of the profile (e.g. 3g.20gb
- Full profile name of the instance (e.g. MIG 3g.20gb)
一旦 GPU 实例被创键,就需要创建相应的计算实例(CI),通过使用 $ nvidia-smi mig -C 选项来创建这些实例。
注意: 如果不创建GPU实例(和相应的计算实例),CUDA 工作负载就无法在 GPU 上运行。换句话说,仅在GPU上启用MIG模式是不够的。还要注意的是,创建的MIG设备不会在系统重新启动后持续存在。因此,如果GPU或系统被重启,则用户或系统管理员需要重新创建所需的MIG配置。
例: 下面的示例显示了用户如何创建 GPU 实例(以及相应的计算实例)。在本例中,用户可以创建两个GPU 实例(3g.20gb类型),每个 GPU 实例具有一半的可用计算和内存容量。在本例中,我们特意使用配置文件 ID 和短配置文件名称来展示如何使用任一选项:
$ sudo nvidia-smi mig -cgi 9,3g.20gb -C
Successfully created GPU instance ID 2 on GPU 0 using profile MIG 3g.20gb (ID 9)
Successfully created compute instance ID 0 on GPU 0 GPU instance ID 2 using profile MIG 3g.20gb (ID 2)
Successfully created GPU instance ID 1 on GPU 0 using profile MIG 3g.20gb (ID 9)
Successfully created compute instance ID 0 on GPU 0 GPU instance ID 1 using profile MIG 3g.20gb (ID 2)
现在可以通过如下命令列出可用的GPU实例:
$ sudo nvidia-smi mig -lgi
+----------------------------------------------------+
| GPU instances: |
| GPU Name Profile Instance Placement |
| ID ID Start:Size |
|====================================================|
| 0 MIG 3g.20gb 9 1 4:4 |
+----------------------------------------------------+
| 0 MIG 3g.20gb 9 2 0:4 |
+----------------------------------------------------+
现在可以通过如下命令验证是否已创建 GI(GPU Instance) 和相应的 CI(Compute Instance) :
$ nvidia-smi
+-----------------------------------------------------------------------------+
| MIG devices: |
+------------------+----------------------+-----------+-----------------------+
| GPU GI CI MIG | Memory-Usage | Vol| Shared |
| ID ID Dev | | SM Unc| CE ENC DEC OFA JPG|
| | | ECC| |
|==================+======================+===========+=======================|
| 0 1 0 0 | 11MiB / 20224MiB | 42 0 | 3 0 2 0 0 |
+------------------+----------------------+-----------+-----------------------+
| 0 2 0 1 | 11MiB / 20096MiB | 42 0 | 3 0 2 0 0 |
+------------------+----------------------+-----------+-----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
|