GPU跑NAMD出错求帮助
我用TESLA K20 在本地服务器跑NAMD,为什么没多线程同时跑,并且最关键的是动力学跑一会就自动退出了,报错如下:
FATAL ERROR: CudaComputeNonbonded::forceDoneCheck, check count exceeded
FATAL ERROR: See http://www.ks.uiuc.edu/Research/namd/bugreport.html
------------- Processor 8 Exiting: Called CmiAbort ------------
Reason: FATAL ERROR: CudaComputeNonbonded::forceDoneCheck, check count exceeded
FATAL ERROR: See http://www.ks.uiuc.edu/Research/namd/bugreport.html
Charm++ fatal error:
FATAL ERROR: CudaComputeNonbonded::forceDoneCheck, check count exceeded
FATAL ERROR: See http://www.ks.uiuc.edu/Research/namd/bugreport.html
[8] Stack Traceback:
[8:0] [0x12c1525]
[8:1] [0x5b06c8]
[8:2] [0xaf9842]
[8:3] [0x12d6acd]
[8:4] [0x12cac02]
[8:5] [0x12c125a]
[8:6] [0x12be773]
[8:7] +0x8182 [0x7fde2bb58182]
[8:8] clone+0x6d [0x7fde2ac5900d]
[8] Stack Traceback:
[8:0] [0x12c1c05]
[8:1] [0x12c14de]
[8:2] [0x12c1525]
[8:3] [0x5b06c8]
[8:4] [0xaf9842]
[8:5] [0x12d6acd]
[8:6] [0x12cac02]
[8:7] [0x12c125a]
[8:8] [0x12be773]
[8:9] +0x8182 [0x7fde2bb58182]
[8:10] clone+0x6d [0x7fde2ac5900d]
有哪位大神遇到过这种情况么?跪求指导。。。。。 返回小木虫查看更多
1.不清楚你的运行命令。
2.不清楚你的体系是啥。
想得到帮助,先讲清楚问题
我的体系是膜蛋白,命令是nohup /usr/local/NAMD_2.12_Linux-x86_64-multicore-CUDA/charmrun ++local +p10 /usr/local/NAMD_2.12_Linux-x86_64-multicore-CUDA/namd2 +idlepoll +devices 0 eqm1.conf > eqm1.log &试过了
nohup 、usr/local/NAMD_2.12_Linux-x86_64-multicore-CUDA/namd2 +p10 +devices 0 eqm1.conf > eqm1.log &也试过了,都是这个错误,而且不管是平衡还是能量最小化都出错,估计是GPU的问题,只用CPU跑就没问题
,
首先查看是否GPU CUDA驱动和显卡驱动是否安装正确
输入 nvidia-smi -a 和 nvcc -v 是否正常显示内容,然后检查GPU运算时,指定GPU计算的语句是否正确,如有限定条件先删掉再一一加上,避免物理硬件不同导致的错误。
可以换GPU了,K80对NAMD提速更快
小实验室,没钱啊
nvidia-smi没问题,nvcc -v显示找不到命令,我又发现动力学停止的时候nvidia-smi显示找不到K20这块卡,然后再输nvidia-smi就死机了
说明显卡驱动没有正确安装成功,或者显卡没有安装成功,先检查下硬件吧,祝好!