24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1130  |  回复: 1
【悬赏金币】回答本帖问题,作者aweiaaaa将赠送您 100 个金币

aweiaaaa

铁虫 (小有名气)

[求助] 想了解一下集群里面的一些概念比如说节点CPU啥的已有1人参与

cpu 节点(node)核 wallclock 和time use的区别及联系

发自小木虫IOS客户端
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

paramecium86

版主 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
zhou2009: 金币+10 2021-03-04 09:04:27
简单的理解的话 大致可以认为一个集群(cluster)是一个无数服务器并联在一起并统一管理的一个系统。
其中每一个服务器都可以叫做一个节点(node),不同的服务器还有不同的功能比如用来负责让用户登陆并使用的(登陆节点)还有用来处理计算任务用的节点(计算节点)等等。

而且一般的集群因为很多人使用。不能让所有人都随意登陆到某一个节点让跑任务。所以还需要有作业系统。比如说 slurm 或者pbs什么的。一般的用户通过设置提交任务的脚本来告诉作业系统你要提交的任务和一些节点的设置。
一般来说无论用的哪种作业系统都可以设置如下的内容:
你可以设置你需要调用多少cpu来计算你的任务 这里的cpu指的就是核心数目。比如一个节点是 双e5 2698v4 有44核心,那你就可以调用44核心
你可以设置你需要调用几个node,也就是几个服务器来同时帮算一个任务。当然有的程序可以调用多node,有的程序就只能在单独一个node内运行
有的超算你还需要设置分区(Partition)。有的超算为了便于管理以及任务处理的效率会把不同的节点分别再归类到不同分区。不同分区内的节点可以调用不同数量的核心数目,不同的内存数目,不同的最大运行时间等等。
当然除此之外还可以设置很多了。可以去你们超算看说明。或者作业系统的帮助文档。

wallclock time指的就是实际运行时间了。比如1点开始算 2点算完 那walclock时间就是 1小时。
并行同时用多个核心运行的任务,还会统计出cpu time, 也就是调用cpu的时间 这里面还得乘以核心数目。比如你调用100核心 一点开始算 2点算完 那cpu 时间是 100小时。 统计这个就是为了告诉你实际用掉了多少计算资源,可以帮你判定这个任务到底的计算成本是多少。(另一方面也是方便收钱,所谓“核时”)
2楼2021-03-03 19:07:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 aweiaaaa 的主题更新
不应助 确定回帖应助 (注意:应助才可能被奖励,但不允许灌水,必须填写15个字符以上)
信息提示
请填处理意见