24小时热门版块排行榜    

CyRhmU.jpeg
查看: 937  |  回复: 0

A宝禄计算

银虫 (初入文坛)

[交流] VASP 的 OpenACC GPU 端口

在 VASP.6.2.0 中,我们正式发布了 VASP 的 OpenACC GPU 端口:正式的意思是我们现在强烈建议使用此 OpenACC 版本在 GPU 加速系统上运行 VASP。
VASP之前的CUDA-C GPU 端口被认为已弃用,不再积极开发、维护或支持。从 VASP.6.3.0 开始,VASP 的 CUDA-C GPU 端口已完全删除。

内容
1个要求
1.1软件栈
1.2硬件
2个建筑
3个特点和限制
4个运行 OpenACC 版本
5个学分
6个相关文章
要求
软件栈
编译器
要编译 VASP 的 OpenACC 版本,您需要最新版本的NVIDIA HPC-SDK (>=21.2)。
原则上,任何至少支持 OpenACC 标准 2.6 的编译器都应该可以做到这一点,但我们只尝试和测试了上述编译器。
注意:NVIDIA HPC-SDK 版本 22.1 和 22.2 有一个严重的错误,禁止与 OpenMP 线程一起执行 OpenACC 版本。使用这些编译器版本时,您应该在没有 OpenMP 支持的情况下进行编译。此错误已从 NVIDIA HPC-SDK 版本 22.3 开始修复。
图书馆
数值库:FFTW、BLAS、LAPACK 和 scaLAPACK。如果您使用的是NVIDIA HPC-SDK,您必须自己安装的唯一数值库是FFTW。后三个(BLAS、LAPACK 和 scaLAPACK)随 SDK 一起提供。或者,您可以链接到提供所有四个的Intel oneAPI MKL库的安装。
NVIDIA CUDA 工具包(>=10.0)。所有必要的 CUDA 工具包组件都作为 NVIDIA HPC-SDK 的一部分提供。
MPI 的 CUDA 感知版本。与 NVIDIA HPC-SDK 一起打包的 OpenMPI 安装是 CUDA 感知的。
NVIDIA 集体通信库 (NCCL) (>=2.7.8)。这个库不是一个严格的要求,但出于性能原因强烈建议使用它。合适的 NCCL 安装作为 NVIDIA HPC-SDK 的一部分提供。
司机
您需要一个至少支持 CUDA-10.0 的 CUDA 驱动程序。
硬件
我们仅使用以下 NVIDIA GPU 测试了 VASP 的 OpenACC GPU 端口:
NVIDIA 数据中心 GPU:P100 (Pascal)、V100 (Volta) 和 A100 (Ampere)。
NVIDIA Quadro GPU:GP100 (Pascal) 和 GV100 (Volta)。
注意:在其他 NVIDIA GPU(例如“游戏”硬件)上运行 VASP 在技术上是可行的,但不可取:这些 GPU 不太适合,因为它们不提供快速双精度浮点运算 (FP64) 性能,并且通常具有更小的没有纠错码 (ECC) 功能的存储器。
建筑
要构建 VASP 的 OpenACC 端口,最好将您的makefile.include文件基于其中一个原型模板,并根据您系统的具体情况调整这些模板。
特点和限制
VASP 的大部分功能都已使用 OpenACC 移植到 GPU,但涉及 RPA 的所有功能除外:GW 和 ACFDT。这是正在进行的工作。
出于性能原因,应避免使用波函数的并行 FFT ( NCORE >1)。目前,即使在INCAR文件中另有指定,OpenACC 版本也会自动切换到NCORE =1 。
由于使用 NCCL,VASP 的 OpenACC 版本只能使用每个可用 GPU 的单个 MPI 等级来执行:
在大多数情况下,使用 NCCL 具有很大的性能优势。但是,我们知道这样一个事实,即对于小型系统上的计算,保留让多个 MPI 级数共享一个 GPU 的能力将很有用,并计划使 NCCL 的使用成为可选的以消除此限制。
运行 OpenACC 版本
1.每个 GPU 使用单个 MPI 等级(目前,NCCL 的使用排除了每个 GPU 使用多个等级)。
2.除了 MPI 等级之外,还使用 ​​OpenMP 线程来利用更多可用的 CPU 能力。OpenACC 版本目前仅限于使用 1 个 MPI-rank/GPU,这意味着可能有相当多的 CPU 能力未被使用。由于仍然有部分代码在 CPU 端运行,因此允许每个 MPI 等级使用多个 OpenMP 线程可能是有益的:
o要了解如何使用 OpenACC和OpenMP 支持构建 VASP,请查看makefile.include.nvhpc_ompi_mkl_omp_acc文件。
注意:这里我们链接了用于 CPU 端 FFTW、BLAS、LAPACK 和 scaLAPACK 调用的英特尔 MKL 库和英特尔 OpenMP 运行时库 ( libiomp5.so 。在为 Intel CPU 编译时强烈建议这样做,尤其是在使用多线程时。为确保 MKL 使用英特尔 OpenMP 运行时库,您需要通过以下方式设置环境变量:
export MKL_THREADING_LAYER=INTEL
或者通过添加:
-x MKL_THREADING_LAYER=intel
作为命令的选项mpirun。
o将 OpenMPI 等级和 OpenMP 线程正确放置和固定到 CPU 内核上可能有点棘手,这取决于使用的 MPI 的特定风格。
3.要获得最佳性能,明智地选择KPAR和NSIM非常重要。不幸的是,理想值将取决于您系统的具体情况,包括工作负载和硬件,因此您将不得不尝试不同的设置。但是,根据经验,可以说:
o将KPAR设置为您将要使用的 GPU 数量(= MPI-ranks)。不过,这仅在计算中不可约k点的数量或多或少可被KPAR整除时才有意义,否则 MPI 等级上的工作分布将严重不平衡。这意味着您在选择此参数时的选项有些受限。
oNSIM确定在许多电子求解器(例如 RMM-DIIS 和 blocked-Davidson)中同时优化的波段数。作为一项规则,与 CPU 端执行相比,应该选择更大的参数以获得 GPU 上的良好性能。
注意:为了优化 VASP 的 CPU 端执行,通常也会对NCORE进行不同的设置。当在 GPU 上运行时,任何不同于NCORE =1 的东西都会对性能产生不利影响,并且 VASP 将自动切换到NCORE =1,即使在INCAR文件中另有指定也是如此。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 A宝禄计算 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见