24小时热门版块排行榜    

CyRhmU.jpeg
查看: 3171  |  回复: 8

broken1999

木虫 (正式写手)


[交流] Gaussian 软件的并行效率

pbs文件里可以指定一个核数,例如  “#PBS -l nodes=1:ppn=8”
gjf文件里也可以指定一个核数,例如 " %proc=8"

最近做了一组测试,具体任务为计算单点能
1. pbs=8, gjf=8,运算时间29h
2. pbs=8, gjf=1,运算时间21.5h
3. pbs=1, gjf=8,运算时间26h
4. pbs=1, gjf=1,运算时间36h

由此衍生出两个问题:
1.机器调用的核的数目是由pbs文件决定,还是由gjf文件决定?
2.高斯的并行效率如何?

-------------------------------------------------------------------------------------

补充说明一下,我的测试调用的CPU都在一个节点内,没有跨节点并行

[ Last edited by broken1999 on 2014-1-20 at 09:07 ]
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

virtualzx

木虫 (著名写手)


★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
gmy1990: 金币+3 2014-01-20 19:43:25
理论上来说是PBS决定一共申请多少可用资源,gjf决定用多少。
高斯并不会知道pbs的设置。如果你用pbs申请了100个节点,只指定用一个,那剩下99个就闲着。
每个版本的PBS不同,不过大部分PBS系统都是正节点分配的,不管你申请多少资源,都是至少给你1个节点,除非管理员设置了非并行队列。所以即使你设置ppn=1,很多版本的PBS仍然会给你一整个节点,如果一个节点是24个处理器就还是可以有24个进程。
2楼2014-01-19 11:50:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lb1586551

铜虫 (小有名气)


★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
gmy1990: 金币+3 2014-01-20 19:43:34
显然测试是有问题的,Gaussian做DFT的效率还算可以。但是跨节点需要Linda版本,国内买Linda的人很少。据说使用Linda是可以用到一两百核,效率还可以,但是计算频率效率比较低。
3楼2014-01-19 23:49:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yongleli

木虫 (正式写手)


★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
gmy1990: 金币+2 2014-01-20 19:44:17
引用回帖:
3楼: Originally posted by lb1586551 at 2014-01-19 23:49:57
显然测试是有问题的,Gaussian做DFT的效率还算可以。但是跨节点需要Linda版本,国内买Linda的人很少。据说使用Linda是可以用到一两百核,效率还可以,但是计算频率效率比较低。

我们这里的系统管理员测试过,高斯的linda版节点间效率特别差。
其实这东西关键还是内存吧。我目前都是弄几个节点,把内存搞大,但是只用一个节点内的CPU。
4楼2014-01-20 05:10:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

abdoman

木虫 (著名写手)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
4楼: Originally posted by yongleli at 2014-01-20 05:10:58
我们这里的系统管理员测试过,高斯的linda版节点间效率特别差。
其实这东西关键还是内存吧。我目前都是弄几个节点,把内存搞大,但是只用一个节点内的CPU。...

想问一下,你们节点间是千兆网线还是用IB连接的?
5楼2014-01-20 08:48:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yongleli

木虫 (正式写手)


引用回帖:
5楼: Originally posted by abdoman at 2014-01-20 08:48:01
想问一下,你们节点间是千兆网线还是用IB连接的?...

是IB啦
6楼2014-01-20 09:00:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

abdoman

木虫 (著名写手)


★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
gmy1990: 金币+3 2014-01-20 19:43:43
pbs=1的是没有意义的。如1楼所说。
通过pbs申请1个节点,但是运行8个进程也是可以的。
但是pbs=8的情况下,不明白为什么gjf=1与8 基本上没有区别?
不至于这么差吧。
1. 不知道是什么任务,计算的任务是否合理?
2. 运行时间是指文件output中的时间,还是说实际计算的时间?
7楼2014-01-20 14:06:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

virtualzx

木虫 (著名写手)


★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
gmy1990: 金币+2 2014-02-11 01:55:22
引用回帖:
4楼: Originally posted by yongleli at 2014-01-19 16:10:58
我们这里的系统管理员测试过,高斯的linda版节点间效率特别差。
其实这东西关键还是内存吧。我目前都是弄几个节点,把内存搞大,但是只用一个节点内的CPU。...

这要取决于机器的结构;高斯,完全没有考虑内存关联性,所以比一般的并行程序都差很多。高斯的很多OpenMP并行甚至没有first touch,所以多线程时没法保证内存定域,如果你的集群在节点间使用DSM共享内存,建议你不要使用,除非手动修改代码,否则效果很不理想!

即使单节点运行,可能的话尽量将内存限制在一个NUMA域上,否则高斯很笨,即使需要的内存不多也会去用NUMA域以外的内存。如果你每个节点有64G,4个numa域,那么可能的话尽量不要给高斯指派超过16G内存,否则可能反而导致变慢。
8楼2014-01-20 16:20:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

qchem

铁杆木虫 (著名写手)


★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
gmy1990: 金币+2 2014-02-11 01:55:30
Gaussian用多少核由输入文件设置,与pbs没有关系,但两者设置不一致会导致抢资源或资源浪费

Gaussian并行效率相对低些,一般8核就差不多了,再高不值得

跨节点用linda效率也低,还要设一个文件否则用不起来

要想Gaussian快,关键是intel的cpu,就好安腾,效率高好多
还有内存设置恰当,不是越大越好

[ 发自小木虫客户端 ]
9楼2014-02-10 09:57:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 broken1999 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见