24小时热门版块排行榜    

Znn3bq.jpeg
查看: 1255  |  回复: 0

A宝禄计算

银虫 (初入文坛)

[交流] VASP 的 OpenACC GPU 端口

在 VASP.6.2.0 中,我们正式发布了 VASP 的 OpenACC GPU 端口:正式的意思是我们现在强烈建议使用此 OpenACC 版本在 GPU 加速系统上运行 VASP。
VASP之前的CUDA-C GPU 端口被认为已弃用,不再积极开发、维护或支持。从 VASP.6.3.0 开始,VASP 的 CUDA-C GPU 端口已完全删除。

内容
1个要求
1.1软件栈
1.2硬件
2个建筑
3个特点和限制
4个运行 OpenACC 版本
5个学分
6个相关文章
要求
软件栈
编译器
要编译 VASP 的 OpenACC 版本,您需要最新版本的NVIDIA HPC-SDK (>=21.2)。
原则上,任何至少支持 OpenACC 标准 2.6 的编译器都应该可以做到这一点,但我们只尝试和测试了上述编译器。
注意:NVIDIA HPC-SDK 版本 22.1 和 22.2 有一个严重的错误,禁止与 OpenMP 线程一起执行 OpenACC 版本。使用这些编译器版本时,您应该在没有 OpenMP 支持的情况下进行编译。此错误已从 NVIDIA HPC-SDK 版本 22.3 开始修复。
图书馆
数值库:FFTW、BLAS、LAPACK 和 scaLAPACK。如果您使用的是NVIDIA HPC-SDK,您必须自己安装的唯一数值库是FFTW。后三个(BLAS、LAPACK 和 scaLAPACK)随 SDK 一起提供。或者,您可以链接到提供所有四个的Intel oneAPI MKL库的安装。
NVIDIA CUDA 工具包(>=10.0)。所有必要的 CUDA 工具包组件都作为 NVIDIA HPC-SDK 的一部分提供。
MPI 的 CUDA 感知版本。与 NVIDIA HPC-SDK 一起打包的 OpenMPI 安装是 CUDA 感知的。
NVIDIA 集体通信库 (NCCL) (>=2.7.8)。这个库不是一个严格的要求,但出于性能原因强烈建议使用它。合适的 NCCL 安装作为 NVIDIA HPC-SDK 的一部分提供。
司机
您需要一个至少支持 CUDA-10.0 的 CUDA 驱动程序。
硬件
我们仅使用以下 NVIDIA GPU 测试了 VASP 的 OpenACC GPU 端口:
NVIDIA 数据中心 GPU:P100 (Pascal)、V100 (Volta) 和 A100 (Ampere)。
NVIDIA Quadro GPU:GP100 (Pascal) 和 GV100 (Volta)。
注意:在其他 NVIDIA GPU(例如“游戏”硬件)上运行 VASP 在技术上是可行的,但不可取:这些 GPU 不太适合,因为它们不提供快速双精度浮点运算 (FP64) 性能,并且通常具有更小的没有纠错码 (ECC) 功能的存储器。
建筑
要构建 VASP 的 OpenACC 端口,最好将您的makefile.include文件基于其中一个原型模板,并根据您系统的具体情况调整这些模板。
特点和限制
VASP 的大部分功能都已使用 OpenACC 移植到 GPU,但涉及 RPA 的所有功能除外:GW 和 ACFDT。这是正在进行的工作。
出于性能原因,应避免使用波函数的并行 FFT ( NCORE >1)。目前,即使在INCAR文件中另有指定,OpenACC 版本也会自动切换到NCORE =1 。
由于使用 NCCL,VASP 的 OpenACC 版本只能使用每个可用 GPU 的单个 MPI 等级来执行:
在大多数情况下,使用 NCCL 具有很大的性能优势。但是,我们知道这样一个事实,即对于小型系统上的计算,保留让多个 MPI 级数共享一个 GPU 的能力将很有用,并计划使 NCCL 的使用成为可选的以消除此限制。
运行 OpenACC 版本
1.每个 GPU 使用单个 MPI 等级(目前,NCCL 的使用排除了每个 GPU 使用多个等级)。
2.除了 MPI 等级之外,还使用 ​​OpenMP 线程来利用更多可用的 CPU 能力。OpenACC 版本目前仅限于使用 1 个 MPI-rank/GPU,这意味着可能有相当多的 CPU 能力未被使用。由于仍然有部分代码在 CPU 端运行,因此允许每个 MPI 等级使用多个 OpenMP 线程可能是有益的:
o要了解如何使用 OpenACC和OpenMP 支持构建 VASP,请查看makefile.include.nvhpc_ompi_mkl_omp_acc文件。
注意:这里我们链接了用于 CPU 端 FFTW、BLAS、LAPACK 和 scaLAPACK 调用的英特尔 MKL 库和英特尔 OpenMP 运行时库 ( libiomp5.so 。在为 Intel CPU 编译时强烈建议这样做,尤其是在使用多线程时。为确保 MKL 使用英特尔 OpenMP 运行时库,您需要通过以下方式设置环境变量:
export MKL_THREADING_LAYER=INTEL
或者通过添加:
-x MKL_THREADING_LAYER=intel
作为命令的选项mpirun。
o将 OpenMPI 等级和 OpenMP 线程正确放置和固定到 CPU 内核上可能有点棘手,这取决于使用的 MPI 的特定风格。
3.要获得最佳性能,明智地选择KPAR和NSIM非常重要。不幸的是,理想值将取决于您系统的具体情况,包括工作负载和硬件,因此您将不得不尝试不同的设置。但是,根据经验,可以说:
o将KPAR设置为您将要使用的 GPU 数量(= MPI-ranks)。不过,这仅在计算中不可约k点的数量或多或少可被KPAR整除时才有意义,否则 MPI 等级上的工作分布将严重不平衡。这意味着您在选择此参数时的选项有些受限。
oNSIM确定在许多电子求解器(例如 RMM-DIIS 和 blocked-Davidson)中同时优化的波段数。作为一项规则,与 CPU 端执行相比,应该选择更大的参数以获得 GPU 上的良好性能。
注意:为了优化 VASP 的 CPU 端执行,通常也会对NCORE进行不同的设置。当在 GPU 上运行时,任何不同于NCORE =1 的东西都会对性能产生不利影响,并且 VASP 将自动切换到NCORE =1,即使在INCAR文件中另有指定也是如此。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 A宝禄计算 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[基金申请] 河北省自然科学基金 +5 Peterchao 2026-05-18 8/400 2026-05-24 11:58 by 晓晓爱翠翠
[基金申请] 西安交大新媒学院副院长用撤稿论文结题 +3 bjvtcliu 2026-05-24 5/250 2026-05-24 10:16 by kudofaye
[教师之家] 某211大学教师把个人教师官方主页改成:我跑了我跑了我跑了!官宣跑路! +4 zju2000 2026-05-21 5/250 2026-05-24 09:35 by songwz
[考博] 26/27申博自荐 10+4 ZXW0202 2026-05-22 9/450 2026-05-24 08:47 by bjvtcliu
[硕博家园] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 hvkbtfonbv 2026-05-23 3/150 2026-05-24 08:01 by 9ps9vgkqva
[硕博家园] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 pmo95bazuy 2026-05-23 7/350 2026-05-24 06:35 by fpo5ljpv91
[基金申请] 揭秘青基评审内幕:几个A才能顺利中标 +3 国自然国社科中 2026-05-23 4/200 2026-05-23 15:37 by 2000zf36392
[基金申请] 青B发送上会通知了吗 +5 chemBioBro 2026-05-22 7/350 2026-05-23 12:35 by zhuifengzhy
[考博] 博士申请 +3 焦晓明 2026-05-21 3/150 2026-05-23 11:26 by mlc840311
[论文投稿] 投稿求助,期刊 +4 希冀,有书读 2026-05-20 8/400 2026-05-22 10:16 by 希冀,有书读
[文学芳草园] 献血感触 +7 呀呀好傻 2026-05-19 13/650 2026-05-21 20:15 by 呀呀好傻
[基金申请] 面上本子正文33页,违规吗?会被低分嘛? +14 1234567wang 2026-05-17 16/800 2026-05-21 17:58 by 脆脆的饼干
[基金申请] 国自然评分 +4 无名者登山 2026-05-20 5/250 2026-05-21 16:35 by swuq
[基金申请] 国自然上会要求 +7 无名者登山 2026-05-18 11/550 2026-05-21 15:50 by draco1987
[基金申请] 提交了我也来说说感想 +9 fummck 2026-05-20 10/500 2026-05-21 14:17 by draco1987
[基金申请] 评审有感 +15 popular289 2026-05-18 26/1300 2026-05-21 10:35 by 西葫芦炒鸡蛋
[有机交流] 反应很差,大量原料没有反应 5+3 Mr.Zot 2026-05-19 8/400 2026-05-20 22:19 by Equinoxhua
[考博] 如果工作了想读博,可以边工作边读全日制嘛? 30+3 铁达火车 2026-05-18 5/250 2026-05-20 09:33 by tfang
[考博] 博士申请 +5 星…… 2026-05-18 6/300 2026-05-18 23:49 by 糊糊涂涂好
[硕博家园] 我在等一个没有答案的答案 +3 Love_MH 2026-05-17 3/150 2026-05-18 02:22 by 竹林孤影
信息提示
请填处理意见