最佳实践
如何选择驱动及相关库、软件版本
GPU云主机在实际的使用中往往需要安装驱动、CUDA工具包、cuDNN、Pytorch等相关的库或软件版本。
如何选择CUDA版本
CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。 开发人员可以使用C语言来为CUDA™架构编写程序,所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。
在选择CUDA版本前,需要先了解GPU云主机所挂载的显卡的算力,然后根据显卡算力来选择对应的CUDA版本。
具体步骤如下:
步骤一 :通过英伟达官网查看显卡算力。以NVIDIA A100 为例,可以看到其显卡计算能力为8.0。
步骤二 :根据显卡计算能力查看可支持CUDA版本,详情请参见NVIDIA数据中心。以NVIDIA A100 为例,CUDA 11.0 以上的版本均能够支持,建议您选择最新版本的CUDA。
如何选择显卡驱动版本
根据确定的CUDA版本来选择显卡的驱动版本,如下图所示。例如您选择的CUDA版本为11.4.3,使用linux操作系统时,驱动版本应大于450.80.02。详情请参见NVIDIA Driver驱动 如何选择cuDNN版本 NVIDIA CUDA 深度神经网络库 (cuDNN) 是一个 GPU 加速的深度神经网络基元库,能够以高度优化的方式实现标准例程(如前向和反向卷积、池化层、归一化和激活层)。借助 cuDNN,研究人员和开发者可以专注于训练神经网络及开发软件应用,而不必花时间进行低层级的 GPU 性能调整。cuDNN 可加速广泛应用的深度学习框架,包括 Caffe2、Chainer、Keras、MATLAB、MxNet、PaddlePaddle、PyTorch 和 TensorFlow。根据选择的CUDA版本选择对应的cuDNN 版本,版本对应关系及cuDNN下载地址可参考如下链接:cuDNN Archive | NVIDIA Developer。
如何选择Pytorch版本
根据选择的CUDA版本选择对应的Pytorch 版本,版本对应关系可参考如下链接:pytorch官方链接