24小时热门版块排行榜    

查看: 1083  |  回复: 13

xiaowu787

木虫 (正式写手)

[交流] 【求助】集群节点之间运行问题 已有5人参与

1. 在一个新建的所谓的GPU集群,做试运算时发现,在一个节点上可以MPI并行。在其他节点上出现Floating point exception
,运行的程序和命令都一样。
2. 用MPI提交任务时,任务也提交不到其他节点上。
请教怎么解决这个问题?

[ Last edited by xiaowu787 on 2010-7-6 at 23:01 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
你是说Gpu集群?用mpi?
2楼2010-07-10 21:04:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

buxiudehun

木虫 (小有名气)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
fegg7502(金币+2):多谢参与 2010-07-15 00:53:15
不明白什么事GPU集群? 或许你可以说的更详细一点。我只是用过现成的集群做计算。
有如下建议:
首先是运行最简单的调试程序,比如pi.c的程序,看是否能够运行。
任务提交不到其他节点上,显然是集群的mpi没有装好,或者没有配置好。
先尝试两台机器的运算
希望能够对你有所帮助
如果实在搞不定,你们学校肯定会有专门管理并行机群的老师,去请教他们更直接和有效
3楼2010-07-10 21:35:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

baitao-1987

金虫 (正式写手)


小木虫(金币+0.5):给个红包,谢谢回帖交流
还不怎么懂~加油楼主
长风破浪会有时,直挂云帆济沧海~
4楼2010-07-11 12:35:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)

引用回帖:
Originally posted by buxiudehun at 2010-07-10 21:35:53:
不明白什么事GPU集群? 或许你可以说的更详细一点。我只是用过现成的集群做计算。
有如下建议:
首先是运行最简单的调试程序,比如pi.c的程序,看是否能够运行。
任务提交不到其他节点上,显然是集群的mpi没有 ...

问管理老师了,他们说是GPU集群,一些常用软件的功能无法实现,需要什么CUDA混合编译,他们现在也刚开始,也弄得不很清楚
5楼2010-07-11 23:00:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

buxiudehun

木虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by xiaowu787 at 2010-07-11 23:00:15:


问管理老师了,他们说是GPU集群,一些常用软件的功能无法实现,需要什么CUDA混合编译,他们现在也刚开始,也弄得不很清楚

GPU 机群有什么特别的地方? 楼主是做什么计算用?
6楼2010-07-12 17:22:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by buxiudehun at 2010-07-12 17:22:15:


GPU 机群有什么特别的地方? 楼主是做什么计算用?

应该是这个吧
http://www.nvidia.com/object/tesla_computing_solutions.html
7楼2010-07-13 11:10:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
mingdong(金币+2):感谢交流! 2010-07-14 19:21:35
引用回帖:
Originally posted by xiaowu787 at 2010-07-06 22:19:07:
1. 在一个新建的所谓的GPU集群,做试运算时发现,在一个节点上可以MPI并行。在其他节点上出现Floating point exception
,运行的程序和命令都一样。
2. 用MPI提交任务时,任务也提交不到其他节点上。
请教怎么 ...

可以的,lz多说说这个gpu集群吧,很感兴趣,你们自己搭建的还是找公司?能说点详细信息吗?

我想插一个问题,对于共享硬盘系统可以提交到其他节点上吗?我用的cluster是共享硬盘,只能在单个节点上运行mpi,请高手指教
8楼2010-07-13 11:13:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)


fegg7502(金币+1):多谢交流 2010-07-15 00:53:44
引用回帖:
Originally posted by neoxie at 2010-07-13 11:13:05:

可以的,lz多说说这个gpu集群吧,很感兴趣,你们自己搭建的还是找公司?能说点详细信息吗?

我想插一个问题,对于共享硬盘系统可以提交到其他节点上吗?我用的cluster是共享硬盘,只能在单个节点上运行mpi, ...

我也是刚开始试用,没管理过,我用MPI提交任务时也是只投到一个节点上,在其他节点上运行同样的任务提示出错,希望大家能找到一个解决的办法,有人说需要mpi-cuda混合编程,不知道有没有这方面的经验。

[ Last edited by xiaowu787 on 2010-7-14 at 20:12 ]
9楼2010-07-14 20:09:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

neoxie

金虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by xiaowu787 at 2010-07-14 20:09:51:


我也是刚开始试用,没管理过,我用MPI提交任务时也是只投到一个节点上,在其他节点上运行同样的任务提示出错,希望大家能找到一个解决的办法,有人说需要mpi-cuda混合编程,不知道有没有这方面的经验。

[ ...

google了下,float flow exception的情况很多,我才可能是库的问题
另外,我想问问你现在程序的主体计算部分是用MPI库在多个cpu上算了还是用cuda来算?
10楼2010-07-15 23:56:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 xiaowu787 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见