24小时热门版块排行榜    

查看: 273  |  回复: 4
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

coolrainbow

木虫 (著名写手)

未来国家冻凉

[交流] 【求助】如何提高组件的集群的稳定性?

最近在实验室组建了个集群,跑一般的东西还行,可是一跑大型的NAMD,时间一长就会出现

p12_5218: (5812.226337) net_recv failed for fd = 8
p13_6686: (5811.836861) net_send: could not write to fd=6, errno = 104
p12_5218:  p4_error: net_recv read, errno = : 110
rm_l_12_5219: (5812.226543) net_send: could not write to fd=5, errno = 32
p13_6686:  p4_error: net_send write: -1
rm_l_13_6687: (5811.837119) net_send: could not write to fd=5, errno = 32
p2_5212:  p4_error: Found a dead connection while looking for messages: 0
p5_3384:  p4_error: Found a dead connection while looking for messages: 0
p4_8071:  p4_error: Found a dead connection while looking for messages: 0
p15_3400:  p4_error: Found a dead connection while looking for messages: 0
....
这类错误,貌似是因为集群的不稳定造成的,请问大家应该怎么解决?谢谢
回复此楼
技术博客:http://hi.baidu.com/coolrainbow/blog
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zeoliters

木虫 (正式写手)


小木虫(金币+0.5):给个红包,谢谢回帖交流
这个问题也许换一个好的switch可以解决!
4楼2009-05-30 00:54:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 5 个回答

abbott

金虫 (著名写手)

不要用QQ问我东西

★ ★
mingdong(金币+2,VIP+0):谢谢! 4-12 13:57
节点之间的通讯故障吧?

节点之间使用什么方式传递信息啊?
数据交换出问题啦  估计....
dead connection 这个不是写着呢吗?

不会是通过那种乱七八糟的交换机连起来的吧?
Chemistry[]==[]Chem[]is[]try!!!
2楼2009-04-11 14:52:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

coolrainbow

木虫 (著名写手)

未来国家冻凉

当然路由器连起来的,myrinet买不起啊
技术博客:http://hi.baidu.com/coolrainbow/blog
3楼2009-04-12 13:31:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

frank178

金虫 (正式写手)


mingdong(金币+1,VIP+0):感谢参与交流! 6-10 06:54
为什么用路由啊? 千兆路由会比myrinet便宜吗?这个本人不清楚。  再说了,低带宽情况下并行节点太多时,效率很低的
5楼2009-05-30 19:56:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见