当前位置: 首页 > 第一原理 >LINUX集群不能提交任务到计算节点问题

LINUX集群不能提交任务到计算节点问题

作者 a94259425
来源: 小木虫 350 7 举报帖子
+关注

最近买了几台服务器做LINUX集群,成功安装ROCKS cluster和MS,Torque。pbsnodes查看节点的时候可以看到计算节点为free状态,但是提交任务只能提交到管理节点(管理节点也做计算节点用),当提交到计算节点的时候提交不上去,计算节点状态由free变为down。求大神~~ 返回小木虫查看更多

今日热帖
  • 精华评论
  • lqfwww

    torque如果安装没有问题,提交较多的核数(比如一个节点20个核,就多于一个节点的核数,脚本里面指定节点、指定核数),qtart 看看任务运行的状态

  • a94259425

    引用回帖:
    2楼: Originally posted by lqfwww at 2018-03-28 10:31:16
    torque如果安装没有问题,提交较多的核数(比如一个节点20个核,就多于一个节点的核数,脚本里面指定节点、指定核数),qtart 看看任务运行的状态

    谢谢~VASP可以指定任意节点,但是MS在指定节点计算方面好像不是太好。后来找了个高手帮忙给看的 发现是管理节点的外网名称需要禁用。

  • lyl453433939

    如果您要用MS软件,肯定是需要再MS相关配置文件中添加节点信息的,现在新版的加入了PBS,也只是能用到pbs队列,并不能真正嵌入PBS队列信息的。

  • sbkk

    请问楼主torque怎么在主节点和子节点安装好的?装完了torque6.1.2发现pbs_mom和psb的一系列软件都打不开

  • a94259425

    引用回帖:
    5楼: Originally posted by sbkk at 2018-10-20 19:24:04
    请问楼主torque怎么在主节点和子节点安装好的?装完了torque6.1.2发现pbs_mom和psb的一系列软件都打不开

    不好意思啊 刚看到 网上有linux下的torque安装教程,主节点安装,生成的文件拷贝到子节点,再改下地址就行了,有问题的话看torque/sched_logs查看日志。看你用什么计算软件了,在软件里可能也需要添加torque的信息。

  • a94259425

    引用回帖:
    7楼: Originally posted by sbkk at 2018-12-01 18:52:08
    请教大神,torque全部已经装好,而且ms已经在geteway里面部署了torque,图一显示各项服务已经启动,图二显示进入服务节点发现计算节点的状态都是down,图三是计算节点pbs_mon报错状态



    ...

    连接不上的原因有很多,我把我当时遇到的一些问题和你说下吧:
    1。连接不上的话最好到安装目录下的sched_logs查看日志,找下原因。
    2。安装目录下的server_priv等文件中也需要对节点信息进行设置。
    3。下面提到的环境变量和连接库修改我不确定,当时在网上找到的,直接就先照着做了。
         #vi /etc/profile
    加入以下几行:
    # add by myself
    export TORQUE=/usr/local/torque-6.0.3
    export LD_LIBRARY_PATH=$TORQUE/lib
    export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
    保存退出
    source /etc/profile

    echo /usr/local/lib > /etc/ld.so.conf.d/torque.conf(将/usr/local/lib加入动态连接库,然后加下一步,否则会出现错误/usr/local/sbin/pbs_server: error while loading shared libraries: libtorque.so.2: cannot open shared object file: No such file or directory)
    echo /usr/local/torque-6.1.0/lib/ > /etc/ld.so.conf.d/torque.conf
    ldconfig
    初始化 serverdb,可设置普通账户 yzf-ms为 torque 的管理员
    ./torque.setup yzf-ms
    qterm(pbs_server运行则不能初始化,qterm为终止该服务)
    ./torque.setup yzf-ms

    配置守护进程的信任关系
    vi /var/spool/torque/mom_priv/config
    写入:
    $pbsserver cluster.hpc.org
    $logevent 255

猜你喜欢
下载小木虫APP
与700万科研达人随时交流
  • 二维码
  • IOS
  • 安卓