24小时热门版块排行榜    

查看: 2258  |  回复: 15
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

风间的记忆

铁杆木虫 (著名写手)

[交流] 【原创】买了Infiniband,实际上并没有用到Infiniband你知道吗? 已有8人参与

现在的集群建设都喜欢上Infiniband,这代表着专业和高速,但很少有人知道实际

上大多数计算软件并不支持Infiniband的协议,实际上投入了大量资金却没有真正的利

用起来。

       以需要编译的VASP为例,但如果并行环境非支持Infiniband或者编译的时候不加入

Infiniband参数,就无法走Infiniband本身的协议,走的是IP OVER IB的协议。

        那我们再解释下什么是Infiniband协议和IP OVER IB的区别?

         ① Infiniband网络可以看成高速公路,而采用Infiniband协议就好比使用奔驰车运送数据,而采用IP OVER IB 就好比使用QQ运送数据(这个比较可能不太贴切,速度快慢除了和协议有关还和计算机网络中很多底层东西相关,很难一句两句解释清楚)

         ②因为TCP/IP是非可靠协议,所以传输的数据有大量的校验信息,而Infiniband协议是可靠协议,校验信息比较少。这样同样运载能力的一辆车,运输TCP/IP协议的数据包的时候真正数据只有70%,而运输Infiniband协议的数据包的时候真正的数据可以是95%。

         至于如何判断是否走Infiniband本身的协议比较复杂,比较表面化的就是在MPIRUN运行VASP此类程序时是否加入IB的协议或者安装的是否支持Infiniband协议的MPI版本(MPICH肯定是不支持的)。

         而另外一些比如FLUENT等商业软件也同样需要做开发才能支持IB本身的协议。

         抛砖引玉,以待来人!
回复此楼
九州浩淼,任其东西,明日何在,但随我意。
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wgpig at 2010-08-09 15:24:23:
这个....

用watch more /proc/net/dev查看lan和ib的流量不是更加直观么。i

这个能看的出来我就没必要写这个帖子了

走不走协议不是看流量就可以的
九州浩淼,任其东西,明日何在,但随我意。
4楼2010-08-09 16:40:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by anionxt at 2010-08-10 20:54:44:
mpich 我记得有专门针对infiniband的版本
http://phase.hpcc.jp/mirrors/mpi/mpich2/index.htm

据我所知应该是MVAPICH和OPENMPI
九州浩淼,任其东西,明日何在,但随我意。
6楼2010-08-11 09:10:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wangyujia at 2010-09-03 10:00:57:



请问你这句话是什么意思?我们的集群前一段时间有一个节点的IB卡没有工作,公司的服务人员就是通过流量大小把这个给判断出来的啊!

这个里面流量有两个层次
一个是TCP/IP协议的流量
一个是IB协议的流量

如果你的程序使用的是IP OVER IB的协议
那么这两个流量都会大
如果走的是IB本身的协议
就只有IB协议层是流量大的
而TCP/IP上基本没什么变化
九州浩淼,任其东西,明日何在,但随我意。
8楼2010-09-03 10:31:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wangyujia at 2010-09-03 14:18:03:



哦!我明白了你的意思,谢谢!
我刚才也用了一下watch哪个命令看了看,那只能给出总流量,并不能区分两种流量。我们的集群有网页监测系统,可以看到每一个节点的Network信息,这个反应的就只是走IP OVER I ...

我想你只明白了一部分
如果你的网页监控系统没有专门针对IB协议的选择
你看到的流量只是TCP/IP的流量
根本看不到IB的流量

也就是说如果如此
如果你真正使用的是IB的协议
在你的流量监控中是看不到任何流量的!

所以如果你的网页监控系统没有专门针对IB协议的选择

如果你看到了流量

而你出现‘发现这个节点的流量比其他节点的流量大。然后公司的工作人员过来用插拔网线和IB线的方法确认那个节点的IB卡确实没有工作。’

如果你拔了IB线 流量还在

说明你不要连IP OVER IB 都没用到!!!

---------------------------------------------
我一直以为即使用不到IB 也至少能用到IP OVER IB!
没想到。。。。。

写的有点乱 但愿你能看明白

[ Last edited by 风间的记忆 on 2010-9-3 at 15:32 ]
九州浩淼,任其东西,明日何在,但随我意。
10楼2010-09-03 15:30:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
Originally posted by wangyujia at 2010-09-05 14:43:52:



可能是我没有写清楚。我投了一个2节点的任务,用到了问题节点,结果这两个节点的流量都很高(M级)。若是任务在其他节点间并行,那么显示的流量很低(K级)。
然后工程师过来把IB线拔掉了,任务没有影响,流量 ...

现在据我所知
用在科学计算上的IB集群
很少有真正使用IB本身协议的

自己的程序需要修改代码 加入IB协议
商用软件需要做工具开发 使之走IB协议

浙大有个国家重点实验室就搞过这个问题的
应该找一家专门做软件和服务的公司弄的

我写这个帖子无非是觉得很多集群觉得上个IB很有面子 也很有效率
实则根本没利用起来 太过浪费
幸好的是现在IB价格较之几年前低多了
九州浩淼,任其东西,明日何在,但随我意。
12楼2010-09-05 22:13:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

引用回帖:
14楼: Originally posted by bluesxn at 2014-01-13 09:22:21
我也是持相同观点。最近组里买了新机器(e5-2670),配了FDR。想看看实算效果如何,于是用mvapich2重新编译了vasp,配置集群的时候特意关闭IPoIB,hostfile里同时特别指定了MPI数据走HCA接口。某算例单节点(16核)跑 ...

CASE是不是足够大
如果足够大 这个效率的确有点低
九州浩淼,任其东西,明日何在,但随我意。
15楼2014-01-13 10:10:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 风间的记忆 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见