24小时热门版块排行榜    

查看: 1094  |  回复: 13
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

xiaowu787

木虫 (正式写手)

[交流] 【求助】集群节点之间运行问题 已有5人参与

1. 在一个新建的所谓的GPU集群,做试运算时发现,在一个节点上可以MPI并行。在其他节点上出现Floating point exception
,运行的程序和命令都一样。
2. 用MPI提交任务时,任务也提交不到其他节点上。
请教怎么解决这个问题?

[ Last edited by xiaowu787 on 2010-7-6 at 23:01 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
你是说Gpu集群?用mpi?
2楼2010-07-10 21:04:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by buxiudehun at 2010-07-12 17:22:15:


GPU 机群有什么特别的地方? 楼主是做什么计算用?

应该是这个吧
http://www.nvidia.com/object/tesla_computing_solutions.html
7楼2010-07-13 11:10:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
mingdong(金币+2):感谢交流! 2010-07-14 19:21:35
引用回帖:
Originally posted by xiaowu787 at 2010-07-06 22:19:07:
1. 在一个新建的所谓的GPU集群,做试运算时发现,在一个节点上可以MPI并行。在其他节点上出现Floating point exception
,运行的程序和命令都一样。
2. 用MPI提交任务时,任务也提交不到其他节点上。
请教怎么 ...

可以的,lz多说说这个gpu集群吧,很感兴趣,你们自己搭建的还是找公司?能说点详细信息吗?

我想插一个问题,对于共享硬盘系统可以提交到其他节点上吗?我用的cluster是共享硬盘,只能在单个节点上运行mpi,请高手指教
8楼2010-07-13 11:13:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by xiaowu787 at 2010-07-14 20:09:51:


我也是刚开始试用,没管理过,我用MPI提交任务时也是只投到一个节点上,在其他节点上运行同样的任务提示出错,希望大家能找到一个解决的办法,有人说需要mpi-cuda混合编程,不知道有没有这方面的经验。

[ ...

google了下,float flow exception的情况很多,我才可能是库的问题
另外,我想问问你现在程序的主体计算部分是用MPI库在多个cpu上算了还是用cuda来算?
10楼2010-07-15 23:56:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
mingdong(金币+1):感谢交流! 2010-07-19 21:46:13
引用回帖:
Originally posted by buxiudehun at 2010-07-16 10:57:24:

那应该是直接在服务节点运行了,搞不好会弄得服务器重启,不建议这样做

但我想不出lz这种情况为什么会报错
等高手吧
14楼2010-07-17 18:10:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 xiaowu787 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见