24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2510  |  回复: 5
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

sbingyi

铁杆木虫 (正式写手)

[求助] 求助,Material Studio 8.0 Cluster 提交多机作业无法计算

Material Studio 8.0 Cluster 已经配置好 Torque 调度系统,并能提交并计算单机作业(14核 或者28核,集群双路cpu,每cpu 14核) 。
但是提交多机作业(大于28核 或者大于14核分配到不同节点上)时,会一直卡住,没有任何的输出,也没有新文件生成。

我弄了好几天了,怀疑是 Licences 的问题,多机计算时无法授权 Linceses,想请教大家一下。

提交了一个多机的 DMol3 作业,终止之后 检查应该是卡死在
引用回帖:
Run: /opt/accelrys/MaterialsStudio8.0/bin/perl /opt/accelrys/MaterialsStudio8.0/etc/Gateway/root_default/dsd/servers/DMol3.pl -standalone -fromdsd fromdsd.txt -todsd todsd.txt

而 todsd.txt 文件如下
引用回帖:
1496842082        status        new        setup
1496842082        status        new        starting
1496842083        status        new        queued
1496842085        progress                -1
1496842088        status        new        running
1496842767        status        new        stopping
1496842775        progress                100
1496842775        message        error        Application finished with no output file GeP3-5L-1.outmol
1496842776        status        new        failure-completed

很明显 在status        new        running 之后就卡住了,而一直过了700s 被我终止掉才出现stopping

对比运行成功的单机版 输出
引用回帖:
1496842481        status        new        setup
1496842481        status        new        starting
1496842482        status        new        queued
1496842484        progress                -1
1496842488        status        new        running
1496842489        message                License checkout of MS_dmol successful
1496842489        message                License checkout of MS_dsolid successful
1496842498        intermediate        file        GeP3-5L-1.car
1496842498        intermediate        file        GeP3-5L-1.monitor
1496842503        message                SCF converged
1496842508        intermediate        file        GeP3-5L-1.car
1496842508        intermediate        file        GeP3-5L-1_opt.summ
1496842508        intermediate        file        GeP3-5L-1.monitor

可以发现是立即出现 License successful。

除了交互式的提交,我使用命令行,用2机2核 也会卡死在 DMol3.pl -standalone -fromdsd fromdsd.txt -todsd todsd.txt 而无任何输出 而单机就能立即算出

这可以说明是Lincese的原因吗,还是说是其他的问题,论坛里有人知道Cluster 的Lincense 如何正确的安装吗 (我是从网上随便找的License)

这个问题已经困扰我好几天了,搜遍了安装文档和网上,也不知道 Cluster 和Lincense 的正确安装方式

集群信息如下

集群有master 登录节点,node 1-8 计算节点, 在master上安装好 Material Studio 8.0 后,通过nfs共享给 node 1-8
master 端口是18889

master配置信息
求助,Material Studio 8.0 Cluster 提交多机作业无法计算
Lincese 配置信息
求助,Material Studio 8.0 Cluster 提交多机作业无法计算-1
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sbkk

铁杆木虫 (著名写手)

请问楼主torque怎么在主节点和子节点安装好的?装完了torque6.1.2发现pbs_mom和psb的一系列软件都打不开

发自小木虫Android客户端
路能走多远,在于事先准备的有多好。不要看到希望而坚持,只有坚持才会看到希望。
6楼2018-10-17 11:58:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 sbingyi 的主题更新
信息提示
请填处理意见