阿里云创建GPU计算型实例

GPU计算型实例包括gn4、gn5、gn5i和gn6v。

创建实例

您可以按照创建ECS实例的描述创建GPU计算型实例，创建时需要注意以下配置。

地域：不同的实例规格族供应的地域信息不同。如下所示：
- gn4：华北2（可用区A）、华东2（可用区B）、华南1（可用区C）
- gn5：华北2（可用区C、E）、华北5（可用区A）、华东1（可用区G、F）、华东2（可用区D、B、E）、华南1（可用区D）、香港（可用区C、B）、亚太东南1（可用区B、A）、亚太东南2（可用区A）、亚太东南3（可用区A）、亚太东南5（可用区A）、美国西部1（可用区B、A）、美国东部1（可用区B、A）、欧洲中部1（可用区A）说明如果您要在gn5实例上部署NGC（NVIDIA GPU CLOUD）环境，选择地域时请参见在gn5实例上部署NGC环境。
- gn5i：华北2（可用区C、E、A）、华东1（可用区B）、华东2（可用区D、B）、华南1（可用区A）
- gn6v：华东2（可用区F）
如果ECS创建页面显示的地域和可用区信息与上述描述不符，以ECS创建页面上显示的信息为准。
镜像：
- 如果您需要安装GPU驱动和CUDA库，可以选择以下任一种方式：
  - 选择系统镜像中的CentOS 64位（目前提供的所有版本都支持）、Ubuntu16.04 64位或SUSE Linux Enterprise Server 12 SP2 64位镜像，并选择自动安装GPU驱动。再选择需要的CUDA库和GPU驱动的版本。说明
    - 您可以根据您的业务需要选择合适的GPU驱动版本。如果是新业务系统，建议您在下拉菜单中选择最新的GPU驱动版本。
    - 如果选择自动安装GPU驱动，系统配置的高级选项中会自动生成实例自定义数据，即自动安装CUDA库和GPU驱动的shell脚本。实例第一次启动后，cloud-init会自动执行脚本，自动安装GPU驱动。更多信息，参见自动安装GPU驱动脚本注意事项。
  - 选择镜像市场，并搜索 NVIDIA，在搜索结果中选择需要的镜像。目前只支持CentOS 7.3和Ubuntu 16.04。
- 如果GPU计算型实例要用于深度学习，可以选择预装深度学习框架的镜像：选择镜像市场，并搜索深度学习，在搜索结果中选择需要的镜像。目前只支持Ubuntu 16.04和CentOS 7.3。
- 除上述以外的其他镜像，实例创建完成后，自行下载并安装GPU驱动。
实例：选择异构计算GPU/FPGAGPU计算型，按需求选择合适的实例规格。
网络：选择专有网络。
公网带宽：根据您的实际需要选择带宽。说明如果使用Windows 2008 R2镜像，GPU驱动安装生效后，您不能使用控制台的远程连接功能连接GPU计算型实例，所以，您必须选择分配公网IP地址，或者创建实例后绑定云资源。
登录凭证：根据实际需求设置登录凭证。说明建议您不要选择创建后设置。实例创建成功后，GPU驱动安装成功之前，如果您需要登录实例，必须重置密码或者绑定SSH密钥对，需要重启实例使修改生效，而重启操作会导致GPU驱动安装失败。
实例自定义数据：如果选择了自动安装GPU驱动，这里会显示自动安装CUDA库和GPU驱动的shell脚本。请您仔细阅读脚本内容和注意事项。

查看自动安装GPU驱动进程

如果您选择了自动安装GPU驱动，实例创建完成后，您可以远程连接实例，通过安装日志 /root/nvidia_install.log查看GPU驱动的安装进程。

说明 GPU驱动安装完成前，您不能操作GPU，也不能安装其他GPU相关软件，以免自动安装失败。

下载并安装GPU驱动

如果使用没有预装GPU驱动的镜像，您必须为实例安装GPU驱动。操作步骤如下：

获取GPU驱动安装包：

进入 NVIDIA 官网。

手动查找适用于实例的驱动程序，并单击搜索。筛选信息说明如下表所示。

信息项	gn4	gn5	gn5i	gn6v
产品类型	Tesla	Tesla	Tesla	Tesla
产品系列	M-Class	P-Series	P-Series	V-Series
产品家族	M40	Tesla P100	Tesla P4	Tesla V100
操作系统	根据实例的镜像选择对应的版本。如果下拉列表中没有显示服务器操作系统，请单击下拉列表底部的选择所有操作系统。

确认无误后，单击下载按钮。

安装GPU驱动：
- Windows实例：直接双击安装GPU驱动。
- Linux实例：按以下步骤安装驱动
  1. 下载并安装kernel对应版本的kernel-devel和kernel-header包。
  2. 运行以下命令，确认已经完成下载并安装kernel-devel和kernel-header包：
```
sudo rpm -qa | grep $(uname -r)
```
    以CentOS 7.3为例，如果出现以下类似信息，表示已经完成安装。
```
kernel-3.10.0-514.26.2.el7.x86_64
kernel-headers-3.10.0-514.26.2.el7.x86_64
kernel-tools-libs-3.10.0-514.26.2.el7.x86_64
python-perf-3.10.0-514.26.2.el7.x86_64
kernel-tools-3.10.0-514.26.2.el7.x86_64
```
  3. 按NVIDIA官网GPU驱动下载页的其他信息描述安装GPU驱动。以Linux 64-bit Ubuntu 14.04为例：

安装GRID驱动

如果gn5、gn5i或gn6v实例需要支持OpenGL图形显示，必须安装GRID驱动，具体操作，请参见在GPU实例中安装GRID驱动。

注意事项

远程连接功能

对于Windows 2008 R2及以下版本，GPU驱动安装生效后，控制台的远程连接功能不可用，管理终端会始终显示黑屏或停留在启动界面。请您通过其他协议进入系统，如Windows自带的远程连接（RDP）。

Windows自带的远程连接（RDP）协议不支持DirectX、OpenGL等相关应用，您需自行安装VNC服务和客户端，或其他支持的协议，例如PCOIP、XenDeskop HDX 3D等。

自动安装GPU驱动脚本

关于自动安装GPU驱动的shell脚本，注意事项如下：

该脚本会自动下载并安装NVIDIA GPU的驱动和CUDA库。
因实例规格的内网带宽和vCPU核数不同，实际自动安装时间为4.5分钟 ~ 10分钟不等。安装GPU驱动时，您不能操作GPU，也不能安装其他GPU相关软件，以免自动安装失败。
自动安装结束后，实例自动重启，使驱动生效。
脚本会自动开启GPU驱动的 Persistence Mode，并将该设置添加到系统自启动脚本中，确保实例重启后还能默认开启该模式。该模式下GPU驱动工作更稳定。
更换操作系统时：
- 如果原来的镜像是Ubuntu16.04 64位或SUSE Linux Enterprise Server 12 SP2 64位，换成其他镜像后，无法自动安装GPU驱动。
- 如果原来的镜像是CentOS的某个版本，换成其他版本的CentOS镜像后，GPU驱动能正常安装。
- 如果换成其他不支持自动安装GPU驱动脚本的镜像，无法自动安装GPU驱动。
安装过程中会生成相应的安装日志，日志存放路径为 /root/nvidia_install.log。您可以通过日志查看驱动安装是否成功。如果失败，您可以通过日志查看失败原因。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。