24小时热门版块排行榜

返回列表

A宝禄计算

银虫 (初入文坛)

应助: 0 (幼儿园)
金币: 299.5
帖子: 27
在线: 32.9小时
虫号: 33605840
注册: 2023-04-14
专业: 高分子物理与高分子物理化

[交流] VASP 的 OpenACC GPU 端口

在 VASP.6.2.0 中，我们正式发布了 VASP 的 OpenACC GPU 端口：正式的意思是我们现在强烈建议使用此 OpenACC 版本在 GPU 加速系统上运行 VASP。
VASP之前的CUDA-C GPU 端口被认为已弃用，不再积极开发、维护或支持。从 VASP.6.3.0 开始，VASP 的 CUDA-C GPU 端口已完全删除。

内容
1个要求
1.1软件栈
1.2硬件
2个建筑
3个特点和限制
4个运行 OpenACC 版本
5个学分
6个相关文章
要求
软件栈
编译器
要编译 VASP 的 OpenACC 版本，您需要最新版本的NVIDIA HPC-SDK (>=21.2)。
原则上，任何至少支持 OpenACC 标准 2.6 的编译器都应该可以做到这一点，但我们只尝试和测试了上述编译器。
注意：NVIDIA HPC-SDK 版本 22.1 和 22.2 有一个严重的错误，禁止与 OpenMP 线程一起执行 OpenACC 版本。使用这些编译器版本时，您应该在没有 OpenMP 支持的情况下进行编译。此错误已从 NVIDIA HPC-SDK 版本 22.3 开始修复。
图书馆
数值库：FFTW、BLAS、LAPACK 和 scaLAPACK。如果您使用的是NVIDIA HPC-SDK，您必须自己安装的唯一数值库是FFTW。后三个（BLAS、LAPACK 和 scaLAPACK）随 SDK 一起提供。或者，您可以链接到提供所有四个的Intel oneAPI MKL库的安装。
NVIDIA CUDA 工具包(>=10.0)。所有必要的 CUDA 工具包组件都作为 NVIDIA HPC-SDK 的一部分提供。
MPI 的 CUDA 感知版本。与 NVIDIA HPC-SDK 一起打包的 OpenMPI 安装是 CUDA 感知的。
NVIDIA 集体通信库 (NCCL) (>=2.7.8)。这个库不是一个严格的要求，但出于性能原因强烈建议使用它。合适的 NCCL 安装作为 NVIDIA HPC-SDK 的一部分提供。
司机
您需要一个至少支持 CUDA-10.0 的 CUDA 驱动程序。
硬件
我们仅使用以下 NVIDIA GPU 测试了 VASP 的 OpenACC GPU 端口：
NVIDIA 数据中心 GPU：P100 (Pascal)、V100 (Volta) 和 A100 (Ampere)。
NVIDIA Quadro GPU：GP100 (Pascal) 和 GV100 (Volta)。
注意：在其他 NVIDIA GPU（例如“游戏”硬件）上运行 VASP 在技术上是可行的，但不可取：这些 GPU 不太适合，因为它们不提供快速双精度浮点运算 (FP64) 性能，并且通常具有更小的没有纠错码 (ECC) 功能的存储器。
建筑
要构建 VASP 的 OpenACC 端口，最好将您的makefile.include文件基于其中一个原型模板，并根据您系统的具体情况调整这些模板。
特点和限制
VASP 的大部分功能都已使用 OpenACC 移植到 GPU，但涉及 RPA 的所有功能除外：GW 和 ACFDT。这是正在进行的工作。
出于性能原因，应避免使用波函数的并行 FFT ( NCORE >1)。目前，即使在INCAR文件中另有指定，OpenACC 版本也会自动切换到NCORE =1 。
由于使用 NCCL，VASP 的 OpenACC 版本只能使用每个可用 GPU 的单个 MPI 等级来执行：
在大多数情况下，使用 NCCL 具有很大的性能优势。但是，我们知道这样一个事实，即对于小型系统上的计算，保留让多个 MPI 级数共享一个 GPU 的能力将很有用，并计划使 NCCL 的使用成为可选的以消除此限制。
运行 OpenACC 版本
1.每个 GPU 使用单个 MPI 等级（目前，NCCL 的使用排除了每个 GPU 使用多个等级）。
2.除了 MPI 等级之外，还使用 OpenMP 线程来利用更多可用的 CPU 能力。OpenACC 版本目前仅限于使用 1 个 MPI-rank/GPU，这意味着可能有相当多的 CPU 能力未被使用。由于仍然有部分代码在 CPU 端运行，因此允许每个 MPI 等级使用多个 OpenMP 线程可能是有益的：
o要了解如何使用 OpenACC和OpenMP 支持构建 VASP，请查看makefile.include.nvhpc_ompi_mkl_omp_acc文件。
注意：这里我们链接了用于 CPU 端 FFTW、BLAS、LAPACK 和 scaLAPACK 调用的英特尔 MKL 库和英特尔 OpenMP 运行时库 ( libiomp5.so

。在为 Intel CPU 编译时强烈建议这样做，尤其是在使用多线程时。为确保 MKL 使用英特尔 OpenMP 运行时库，您需要通过以下方式设置环境变量：
export MKL_THREADING_LAYER=INTEL
或者通过添加：
-x MKL_THREADING_LAYER=intel
作为命令的选项mpirun。
o将 OpenMPI 等级和 OpenMP 线程正确放置和固定到 CPU 内核上可能有点棘手，这取决于使用的 MPI 的特定风格。
3.要获得最佳性能，明智地选择KPAR和NSIM非常重要。不幸的是，理想值将取决于您系统的具体情况，包括工作负载和硬件，因此您将不得不尝试不同的设置。但是，根据经验，可以说：
o将KPAR设置为您将要使用的 GPU 数量（= MPI-ranks）。不过，这仅在计算中不可约k点的数量或多或少可被KPAR整除时才有意义，否则 MPI 等级上的工作分布将严重不平衡。这意味着您在选择此参数时的选项有些受限。
oNSIM确定在许多电子求解器（例如 RMM-DIIS 和 blocked-Davidson）中同时优化的波段数。作为一项规则，与 CPU 端执行相比，应该选择更大的参数以获得 GPU 上的良好性能。
注意：为了优化 VASP 的 CPU 端执行，通常也会对NCORE进行不同的设置。当在 GPU 上运行时，任何不同于NCORE =1 的东西都会对性能产生不利影响，并且 VASP 将自动切换到NCORE =1，即使在INCAR文件中另有指定也是如此。

回复此楼

» 猜你喜欢

26申博推荐：南京航空航天大学国际前沿院光学方向招收博士生！已经有1人回复
如何从铁电相到顺电相。已经有1人回复
物理学I论文润色/翻译怎么收费? 已经有294人回复
各位大佬，求一份最新Wien2k版本作为学习用途已经有0人回复
南科大活性流体和软物质课题组诚招2027级博士、硕士研究生和博后已经有38人回复
瑞典林雪平大学博士后招聘｜PEC Water Splitting 方向已经有24人回复
PRB投稿，Acknowledgment sent to author状态十天了已经有3人回复
PVA溶解已经有1人回复
基金申请已经有44人回复

1楼 2023-06-09 16:45:45

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 A宝禄计算的主题更新

返回列表