24小时热门版块排行榜    

查看: 1089  |  回复: 13
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

xiaowu787

木虫 (正式写手)

[交流] 【求助】集群节点之间运行问题 已有5人参与

1. 在一个新建的所谓的GPU集群,做试运算时发现,在一个节点上可以MPI并行。在其他节点上出现Floating point exception
,运行的程序和命令都一样。
2. 用MPI提交任务时,任务也提交不到其他节点上。
请教怎么解决这个问题?

[ Last edited by xiaowu787 on 2010-7-6 at 23:01 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)

引用回帖:
Originally posted by buxiudehun at 2010-07-10 21:35:53:
不明白什么事GPU集群? 或许你可以说的更详细一点。我只是用过现成的集群做计算。
有如下建议:
首先是运行最简单的调试程序,比如pi.c的程序,看是否能够运行。
任务提交不到其他节点上,显然是集群的mpi没有 ...

问管理老师了,他们说是GPU集群,一些常用软件的功能无法实现,需要什么CUDA混合编译,他们现在也刚开始,也弄得不很清楚
5楼2010-07-11 23:00:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)


fegg7502(金币+1):多谢交流 2010-07-15 00:53:44
引用回帖:
Originally posted by neoxie at 2010-07-13 11:13:05:

可以的,lz多说说这个gpu集群吧,很感兴趣,你们自己搭建的还是找公司?能说点详细信息吗?

我想插一个问题,对于共享硬盘系统可以提交到其他节点上吗?我用的cluster是共享硬盘,只能在单个节点上运行mpi, ...

我也是刚开始试用,没管理过,我用MPI提交任务时也是只投到一个节点上,在其他节点上运行同样的任务提示出错,希望大家能找到一个解决的办法,有人说需要mpi-cuda混合编程,不知道有没有这方面的经验。

[ Last edited by xiaowu787 on 2010-7-14 at 20:12 ]
9楼2010-07-14 20:09:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)

引用回帖:
Originally posted by neoxie at 2010-07-15 23:56:58:

google了下,float flow exception的情况很多,我才可能是库的问题
另外,我想问问你现在程序的主体计算部分是用MPI库在多个cpu上算了还是用cuda来算?

“用MPI库在多个cpu上算了还是用cuda来算?”我就不大懂了,由于没有专门的作业提交程序,就直接用了
“mpirun -np 10 ./.........”
这样的命令
12楼2010-07-16 10:34:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 xiaowu787 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见