24小时热门版块排行榜    

查看: 1706  |  回复: 7

125442548

铁虫 (初入文坛)

[求助] GPU跑NAMD出错求帮助 已有3人参与

我用TESLA K20 在本地服务器跑NAMD,为什么没多线程同时跑,并且最关键的是动力学跑一会就自动退出了,报错如下:
FATAL ERROR: CudaComputeNonbonded::forceDoneCheck, check count exceeded
FATAL ERROR: See http://www.ks.uiuc.edu/Research/namd/bugreport.html
------------- Processor 8 Exiting: Called CmiAbort ------------
Reason: FATAL ERROR: CudaComputeNonbonded::forceDoneCheck, check count exceeded
FATAL ERROR: See http://www.ks.uiuc.edu/Research/namd/bugreport.html

Charm++ fatal error:
FATAL ERROR: CudaComputeNonbonded::forceDoneCheck, check count exceeded
FATAL ERROR: See http://www.ks.uiuc.edu/Research/namd/bugreport.html

[8] Stack Traceback:
  [8:0]   [0x12c1525]
  [8:1]   [0x5b06c8]
  [8:2]   [0xaf9842]
  [8:3]   [0x12d6acd]
  [8:4]   [0x12cac02]
  [8:5]   [0x12c125a]
  [8:6]   [0x12be773]
  [8:7] +0x8182  [0x7fde2bb58182]
  [8:8] clone+0x6d  [0x7fde2ac5900d]
[8] Stack Traceback:
  [8:0]   [0x12c1c05]
  [8:1]   [0x12c14de]
  [8:2]   [0x12c1525]
  [8:3]   [0x5b06c8]
  [8:4]   [0xaf9842]
  [8:5]   [0x12d6acd]
  [8:6]   [0x12cac02]
  [8:7]   [0x12c125a]
  [8:8]   [0x12be773]
  [8:9] +0x8182  [0x7fde2bb58182]
  [8:10] clone+0x6d  [0x7fde2ac5900d]
有哪位大神遇到过这种情况么?跪求指导。。。。。
回复此楼

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wbf3ng

金虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
1.不清楚你的运行命令。
2.不清楚你的体系是啥。
想得到帮助,先讲清楚问题

发自小木虫Android客户端
2楼2017-01-02 23:39:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

125442548

铁虫 (初入文坛)

引用回帖:
2楼: Originally posted by wbf3ng at 2017-01-02 23:39:24
1.不清楚你的运行命令。
2.不清楚你的体系是啥。
想得到帮助,先讲清楚问题

我的体系是膜蛋白,命令是nohup /usr/local/NAMD_2.12_Linux-x86_64-multicore-CUDA/charmrun ++local +p10 /usr/local/NAMD_2.12_Linux-x86_64-multicore-CUDA/namd2 +idlepoll +devices 0 eqm1.conf > eqm1.log &试过了
nohup 、usr/local/NAMD_2.12_Linux-x86_64-multicore-CUDA/namd2 +p10  +devices 0 eqm1.conf > eqm1.log &也试过了,都是这个错误,而且不管是平衡还是能量最小化都出错,估计是GPU的问题,只用CPU跑就没问题
3楼2017-01-03 18:31:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lyl453433939

金虫 (正式写手)

高性能设备软硬件集成商

【答案】应助回帖

首先查看是否GPU CUDA驱动和显卡驱动是否安装正确
输入 nvidia-smi -a  和 nvcc -v 是否正常显示内容,然后检查GPU运算时,指定GPU计算的语句是否正确,如有限定条件先删掉再一一加上,避免物理硬件不同导致的错误。
4楼2017-01-12 16:59:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

amaxzhou

金虫 (小有名气)


【答案】应助回帖

可以换GPU了,K80对NAMD提速更快
5楼2017-01-13 09:18:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

125442548

铁虫 (初入文坛)

引用回帖:
5楼: Originally posted by amaxzhou at 2017-01-13 09:18:06
可以换GPU了,K80对NAMD提速更快

小实验室,没钱啊
6楼2017-01-13 15:55:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

125442548

铁虫 (初入文坛)

引用回帖:
4楼: Originally posted by lyl453433939 at 2017-01-12 16:59:36
首先查看是否GPU CUDA驱动和显卡驱动是否安装正确
输入 nvidia-smi -a  和 nvcc -v 是否正常显示内容,然后检查GPU运算时,指定GPU计算的语句是否正确,如有限定条件先删掉再一一加上,避免物理硬件不同导致的错误 ...

nvidia-smi没问题,nvcc -v显示找不到命令,我又发现动力学停止的时候nvidia-smi显示找不到K20这块卡,然后再输nvidia-smi就死机了
7楼2017-01-13 15:58:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lyl453433939

金虫 (正式写手)

高性能设备软硬件集成商

【答案】应助回帖

引用回帖:
7楼: Originally posted by 125442548 at 2017-01-13 15:58:20
nvidia-smi没问题,nvcc -v显示找不到命令,我又发现动力学停止的时候nvidia-smi显示找不到K20这块卡,然后再输nvidia-smi就死机了...

说明显卡驱动没有正确安装成功,或者显卡没有安装成功,先检查下硬件吧,祝好!
8楼2017-01-13 16:29:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 125442548 的主题更新
信息提示
请填处理意见