24小时热门版块排行榜    

查看: 1433  |  回复: 4

吴丰旭

金虫 (小有名气)

[求助] Torque+Maui集群资源管理问题 已有1人参与

本人在管理一个20台服务器的小型计算机机群,最近在安装Torque+Maui来更好的分配计算资源,但是现在遇到一个问题,就是我们的机器有一部分机器是GPU+CPU的机器,另一部分是只有CPU的机器,而我们算的任务也有用GPU计算的任务,也有用CPU计算的任务,所以我想把这些机器分成两个组,Group1是GPU机器,Group2是CPU机器,投任务的时候可以用命令指定是投在Group1上还是投在Group2上,不知道这样是不是可以实现?不知道Torque可不可以分配GPU资源?求大神帮助!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

y.q.liu

金虫 (小有名气)


【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
吴丰旭: 金币+20, ★★★很有帮助 2016-10-11 12:16:12
抛砖引玉下。
maui不支持GPU调度,torque是支持的,maui+torque不支持。
所以,可以只用torque而不是maui+torque,当然这样就会降低CPU节点的管理能力了。
也可以仍然用maui+torque,你分配gpu相关的任务时指定用gpu这一类型的节点,但gpu是没法合理调度的,会出现一片卡上跑多个任务的情况(通过卡的设置可规避这一问题,但会造成提交的任务失败)。
2楼2016-10-11 08:57:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

吴丰旭

金虫 (小有名气)

引用回帖:
2楼: Originally posted by y.q.liu at 2016-10-11 08:57:28
抛砖引玉下。
maui不支持GPU调度,torque是支持的,maui+torque不支持。
所以,可以只用torque而不是maui+torque,当然这样就会降低CPU节点的管理能力了。
也可以仍然用maui+torque,你分配gpu相关的任务时指定用 ...

说的很对啊,是可以定义节点机的属性,然后投任务的时候指定类型投任务,可是会出现你说的一个卡跑多个任务的情况。我现在有一个想法解决这个问题不知道可行不,就是我还用Torque+Maui,然后我在server上配置各个计算节点的时候我把每一台GPU的机子都指定两次,比如像下面这样,在配置文件nodes里面这样写,node116和gnode001指的是同一台节点机,只不过起了两个名字罢了,为cpu个数指定4,属性为cpu;为gpu个数指定1,属性为gpu。投任务的时候指定节点机类型就行了。
node116 np=4 cpu
gnode001 np=1 gpu
不知道这样为同一节点机指定两次可以不,我试了一下貌似有点儿问题!
3楼2016-10-11 12:15:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

y.q.liu

金虫 (小有名气)


【答案】应助回帖

引用回帖:
3楼: Originally posted by 吴丰旭 at 2016-10-11 12:15:37
说的很对啊,是可以定义节点机的属性,然后投任务的时候指定类型投任务,可是会出现你说的一个卡跑多个任务的情况。我现在有一个想法解决这个问题不知道可行不,就是我还用Torque+Maui,然后我在server上配置各个计 ...

没试过,估计是不行,因为IP是同一个,pbs_mom实际上也只有一个。
4楼2016-10-12 08:58:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sbkk

铁杆木虫 (著名写手)

请问楼主torque怎么在主节点和子节点安装好的?装完了torque6.1.2发现pbs_mom和psb的一系列软件都打不开
路能走多远,在于事先准备的有多好。不要看到希望而坚持,只有坚持才会看到希望。
5楼2018-10-20 19:33:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 吴丰旭 的主题更新
信息提示
请填处理意见