24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2120  |  回复: 15

风间的记忆

铁杆木虫 (著名写手)

[交流] 【原创】买了Infiniband,实际上并没有用到Infiniband你知道吗?已有8人参与

现在的集群建设都喜欢上Infiniband,这代表着专业和高速,但很少有人知道实际

上大多数计算软件并不支持Infiniband的协议,实际上投入了大量资金却没有真正的利

用起来。

       以需要编译的VASP为例,但如果并行环境非支持Infiniband或者编译的时候不加入

Infiniband参数,就无法走Infiniband本身的协议,走的是IP OVER IB的协议。

        那我们再解释下什么是Infiniband协议和IP OVER IB的区别?

         ① Infiniband网络可以看成高速公路,而采用Infiniband协议就好比使用奔驰车运送数据,而采用IP OVER IB 就好比使用QQ运送数据(这个比较可能不太贴切,速度快慢除了和协议有关还和计算机网络中很多底层东西相关,很难一句两句解释清楚)

         ②因为TCP/IP是非可靠协议,所以传输的数据有大量的校验信息,而Infiniband协议是可靠协议,校验信息比较少。这样同样运载能力的一辆车,运输TCP/IP协议的数据包的时候真正数据只有70%,而运输Infiniband协议的数据包的时候真正的数据可以是95%。

         至于如何判断是否走Infiniband本身的协议比较复杂,比较表面化的就是在MPIRUN运行VASP此类程序时是否加入IB的协议或者安装的是否支持Infiniband协议的MPI版本(MPICH肯定是不支持的)。

         而另外一些比如FLUENT等商业软件也同样需要做开发才能支持IB本身的协议。

         抛砖引玉,以待来人!
回复此楼
九州浩淼,任其东西,明日何在,但随我意。
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚


小木虫(金币+0.5):给个红包,谢谢回帖交流
找个工作不容易
国内急功又近利
哪有耐心学协议
不如出海打鱼去

(是不是应该用“打渔”?京剧《打渔杀家》,就是“打渔”,不是“打鱼”)



[ Last edited by yalefield on 2010-8-9 at 10:21 ]
2楼2010-08-09 10:19:47
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wgpig

木虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
这个....

用watch more /proc/net/dev查看lan和ib的流量不是更加直观么。i
3楼2010-08-09 15:24:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wgpig at 2010-08-09 15:24:23:
这个....

用watch more /proc/net/dev查看lan和ib的流量不是更加直观么。i

这个能看的出来我就没必要写这个帖子了

走不走协议不是看流量就可以的
九州浩淼,任其东西,明日何在,但随我意。
4楼2010-08-09 16:40:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

anionxt

铁杆木虫 (著名写手)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
mingdong(金币+2):感谢交流! 2010-08-12 21:34:57
mpich 我记得有专门针对infiniband的版本
http://phase.hpcc.jp/mirrors/mpi/mpich2/index.htm
5楼2010-08-10 20:54:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by anionxt at 2010-08-10 20:54:44:
mpich 我记得有专门针对infiniband的版本
http://phase.hpcc.jp/mirrors/mpi/mpich2/index.htm

据我所知应该是MVAPICH和OPENMPI
九州浩淼,任其东西,明日何在,但随我意。
6楼2010-08-11 09:10:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wangyujia

木虫 (正式写手)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by 风间的记忆 at 2010-08-09 16:40:31:


这个能看的出来我就没必要写这个帖子了

走不走协议不是看流量就可以的

请问你这句话是什么意思?我们的集群前一段时间有一个节点的IB卡没有工作,公司的服务人员就是通过流量大小把这个给判断出来的啊!
7楼2010-09-03 10:00:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wangyujia at 2010-09-03 10:00:57:



请问你这句话是什么意思?我们的集群前一段时间有一个节点的IB卡没有工作,公司的服务人员就是通过流量大小把这个给判断出来的啊!

这个里面流量有两个层次
一个是TCP/IP协议的流量
一个是IB协议的流量

如果你的程序使用的是IP OVER IB的协议
那么这两个流量都会大
如果走的是IB本身的协议
就只有IB协议层是流量大的
而TCP/IP上基本没什么变化
九州浩淼,任其东西,明日何在,但随我意。
8楼2010-09-03 10:31:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wangyujia

木虫 (正式写手)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by 风间的记忆 at 2010-09-03 10:31:05:


这个里面流量有两个层次
一个是TCP/IP协议的流量
一个是IB协议的流量

如果你的程序使用的是IP OVER IB的协议
那么这两个流量都会大
如果走的是IB本身的协议
就只有IB协议层是流量大的
而TCP/IP上基本 ...

哦!我明白了你的意思,谢谢!
我刚才也用了一下watch哪个命令看了看,那只能给出总流量,并不能区分两种流量。我们的集群有网页监测系统,可以看到每一个节点的Network信息,这个反应的就只是走IP OVER IB协议的流量。上次出现错误是我们自己先发现这个节点的流量比其他节点的流量大。然后公司的工作人员过来用插拔网线和IB线的方法确认那个节点的IB卡确实没有工作。
9楼2010-09-03 14:18:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wangyujia at 2010-09-03 14:18:03:



哦!我明白了你的意思,谢谢!
我刚才也用了一下watch哪个命令看了看,那只能给出总流量,并不能区分两种流量。我们的集群有网页监测系统,可以看到每一个节点的Network信息,这个反应的就只是走IP OVER I ...

我想你只明白了一部分
如果你的网页监控系统没有专门针对IB协议的选择
你看到的流量只是TCP/IP的流量
根本看不到IB的流量

也就是说如果如此
如果你真正使用的是IB的协议
在你的流量监控中是看不到任何流量的!

所以如果你的网页监控系统没有专门针对IB协议的选择

如果你看到了流量

而你出现‘发现这个节点的流量比其他节点的流量大。然后公司的工作人员过来用插拔网线和IB线的方法确认那个节点的IB卡确实没有工作。’

如果你拔了IB线 流量还在

说明你不要连IP OVER IB 都没用到!!!

---------------------------------------------
我一直以为即使用不到IB 也至少能用到IP OVER IB!
没想到。。。。。

写的有点乱 但愿你能看明白

[ Last edited by 风间的记忆 on 2010-9-3 at 15:32 ]
九州浩淼,任其东西,明日何在,但随我意。
10楼2010-09-03 15:30:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 风间的记忆 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见