24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2132  |  回复: 15

wangyujia

木虫 (正式写手)

★ ★ ★ ★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
mingdong(金币+5):感谢交流! 2010-09-06 16:29:44
引用回帖:
Originally posted by 风间的记忆 at 2010-09-03 15:30:24:


我想你只明白了一部分
如果你的网页监控系统没有专门针对IB协议的选择
你看到的流量只是TCP/IP的流量
根本看不到IB的流量

也就是说如果如此
如果你真正使用的是IB的协议
在你的流量监控中是看不到任 ...

可能是我没有写清楚。我投了一个2节点的任务,用到了问题节点,结果这两个节点的流量都很高(M级)。若是任务在其他节点间并行,那么显示的流量很低(K级)。
然后工程师过来把IB线拔掉了,任务没有影响,流量依旧,说明这个任务是通过千兆网卡来并行的。然后他把IB线连上,把网线拔掉,结果任务就被终止了,更加说明这个节点的IB卡没有工作。
你的想法是对的,“即使用不到IB 也至少能用到IP OVER IB!”
11楼2010-09-05 14:43:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wangyujia at 2010-09-05 14:43:52:



可能是我没有写清楚。我投了一个2节点的任务,用到了问题节点,结果这两个节点的流量都很高(M级)。若是任务在其他节点间并行,那么显示的流量很低(K级)。
然后工程师过来把IB线拔掉了,任务没有影响,流量 ...

现在据我所知
用在科学计算上的IB集群
很少有真正使用IB本身协议的

自己的程序需要修改代码 加入IB协议
商用软件需要做工具开发 使之走IB协议

浙大有个国家重点实验室就搞过这个问题的
应该找一家专门做软件和服务的公司弄的

我写这个帖子无非是觉得很多集群觉得上个IB很有面子 也很有效率
实则根本没利用起来 太过浪费
幸好的是现在IB价格较之几年前低多了
九州浩淼,任其东西,明日何在,但随我意。
12楼2010-09-05 22:13:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gromacs

银虫 (正式写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
这是我运行more /proc/net/dev的结果,能看出点什么吗

Inter-|   Receive                                                |  Transmit
face |bytes    packets errs drop fifo frame compressed multicast|bytes    packets errs drop fifo colls carrier compressed
    lo:23421553   93525    0    0    0     0          0         0 23421553   93525    0    0    0     0       0          0
  eth0:154464147427 227320558    0    0    0     0          0      1717 518208978183 381492117    0    0    0     0       0          0
  eth1:       0       0    0    0    0     0          0         0        0       0    0    0    0     0       0          0
  sit0:       0       0    0    0    0     0          0         0        0       0    0    0    0     0       0          0
   ib0: 4298196   74249    0    0    0     0          0         0     3584      17    0    0    0     0       0          0
"I was taught at school that you should never start a sentence without knowing the end of it." GROMACS讨论区:http://www.mdbbs.org/forum-39-1.html
13楼2013-06-03 18:40:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bluesxn

银虫 (正式写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我也是持相同观点。最近组里买了新机器(e5-2670),配了FDR。想看看实算效果如何,于是用mvapich2重新编译了vasp,配置集群的时候特意关闭IPoIB,hostfile里同时特别指定了MPI数据走HCA接口。某算例单节点(16核)跑了52分钟,用双节点(32核)跑用了34分钟,比单节点仅仅快了1/3,不知道是否正常。看网络接口数据,eth数据没有明显增加,ib为0(因为没配IPoIB)。不知道有什么办法能监控ib接口流量,ibdump管用么?

[ Last edited by bluesxn on 2014-1-13 at 09:25 ]
14楼2014-01-13 09:22:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
14楼: Originally posted by bluesxn at 2014-01-13 09:22:21
我也是持相同观点。最近组里买了新机器(e5-2670),配了FDR。想看看实算效果如何,于是用mvapich2重新编译了vasp,配置集群的时候特意关闭IPoIB,hostfile里同时特别指定了MPI数据走HCA接口。某算例单节点(16核)跑 ...

CASE是不是足够大
如果足够大 这个效率的确有点低
九州浩淼,任其东西,明日何在,但随我意。
15楼2014-01-13 10:10:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

chen23547

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
也不能说没有用到infiniband吧,IPoIB还是基于IB的,但是数据压入IP报文确实会损失一定的效率。RDMA得要软件支持才行啊。
16楼2014-01-13 11:18:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 风间的记忆 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见