24小时热门版块排行榜    

CyRhmU.jpeg
南方科技大学公共卫生及应急管理学院2025级博士研究生招生报考通知
查看: 1263  |  回复: 6
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

jk射手座

新虫 (著名写手)

[求助] 求助一个关于Linux下的VASP故障的问题已有1人参与

首先描述一下前几天我碰到的问题:我用的是曙光服务器,其共有16个节点(相当于是16个主机吧),安装的5.的VASP软件,好像是可以直接调用的那种(说不太清,师兄告知这是别人帮忙安装的)。那天因为些异常原因网络升级,服务器断网,需要重启;但是这样一次灾难性的重启导致我里面的数据全部丢失,包括往届的师兄做的东西;另外更棘手的是VASP软件不能正常运行,我平时用的节点 有 3,4,7,8,9,11,12,14,16共9个节点,每次通过SSH远程客户端登陆终端是直接登上的16节点;如果ssh node转换到其它节点上时,会提示:
-bash: /public/software/intel/bin/iccvars.sh: 娌℃椋涓浠舵珏?
-bash: /public/software/intel/bin/ifortvars.sh: 娌℃椋涓浠舵珏?
其中后边那几个乱码意思是找不到该文件;
我给曙光的售后维修部电话咨询过,通过描述他们说应该不是服务器硬件的问题;我猜测可能是因为在重启的时候我冷启动了控制服务器的那台电脑主机的按钮,不然我实在是想不出是哪步出错能让linux 系统里的那些血汗数据丢失(幸亏有一些备份);因为以前在需要重启的时候,没有一次出现这么惨重的状况;
出现故障后,打算重新编译VASP重新补算一些东西,学习编译安装的过程中,我发现16节点,也就是刚登陆就登上的那个终端可以进行计算了,只是登陆时SSH上还会显示上面那两条提示说 iccvars.sh ifortvars.sh找不到(这两个好像是编译器的文件),但是ssh node换到其他节点依然计算不了,这一系列的问题下来搞得我这个工科非计算机的屌丝蒙了又蒙,周围没有人懂这个东西;
发此贴也是想碰碰运气,看看有没有人能想到一些端倪,(当然我也知道我的描述挺乱的,没办法,这问题本身就够让我蒙的了)因为目前我感觉好像是应该在服务器那边设置什么东西,让其他8个节点与16节点的东西共享,这样都可以算;或者是丢失那些数据的同时丢失了什么编译器之类的根文件,挨个节点重新安装一下应该就能好;但是这些我都无从下手;
现在是只有一个节点在跑我剩余的任务,可是还是想能把服务器的这个毛病搞好,求大神指点!阿弥陀佛
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

主做电弧增材制造方向
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jk射手座

新虫 (著名写手)

引用回帖:
3楼: Originally posted by KalaShayminS at 2014-09-12 03:10:28
检查/public/software/intel/这个目录是否存在。
根据你的描述,我猜测是服务器的NFS系统坏了,根本没连接到硬盘上。
在登陆节点和其他机器上使用命令
df
看看有啥输出。
另外intel的确实关了,建议先用gfortr ...

十分感谢你的回复!
首先那个目录在出问题之后我就查了,确实没了,那两个 ifortvars.sh iccvars.sh 也没有了,我以前查看过,在linux系统里是和vasp一样的图标,所以我猜应该也是什么程序软件的东西。
刚才照您说的df了一下,显示是这样的
[root@node16 ~]# df
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/sdb3            134041452  21086912 106035748  17% /
/dev/sdb1               101086     64468     31399  68% /boot
tmpfs                  3903896         0   3903896   0% /dev/shm
这个是在16节点上出来的信息,换了其它节点,比如8节点:
[root@node8 ~]# df
驿欢绯荤?              1K-?       宸茬?    瀵绋 宸茬? 骅浇绻
/dev/mapper/VolGroup00-LogVol00
                     128806444   5692620 116465200   5% /
/dev/sda1               101086     12784     83083  14% /boot
tmpfs                  4123096         0   4123096   0% /dev/shm
是这样的,乱码就是Filesystem 1K-blocks  Used Available Use% Mounted on 翻译过来的汉字;(在控制服务器的那台主机上查看能看到是汉字,这个乱码是我通过SSH远程客户端查看的,会显示出乱码);其它的节点df出来的东西基本是一样的,只是Used那一列数据有差异;
不过这么看的话,好像其它8个的节点的这些数据差不多都比16节点的小啊。。请问这个是说明了什么?
主做电弧增材制造方向
4楼2014-09-12 09:21:22
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 7 个回答

jk射手座

新虫 (著名写手)

额还想再补充一遍,关于那个编译器的问题,我已经发过一个帖子求传intel 的ifort编译器,因为我在Intel的官网上找了,那个原来大家说的可以免费下载的非商业版本的编译器网址,现在处于under revision的状态,没法下载。。
主做电弧增材制造方向
2楼2014-09-11 15:30:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

KalaShayminS

铁杆木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
jk射手座: 金币+10, 有帮助 2014-09-21 17:20:11
检查/public/software/intel/这个目录是否存在。
根据你的描述,我猜测是服务器的NFS系统坏了,根本没连接到硬盘上。
在登陆节点和其他机器上使用命令
df
看看有啥输出。
另外intel的确实关了,建议先用gfortran,速度差距不到一个数量级,可以用。
3楼2014-09-12 03:10:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

KalaShayminS

铁杆木虫 (著名写手)

【答案】应助回帖

引用回帖:
4楼: Originally posted by jk射手座 at 2014-09-12 09:21:22
十分感谢你的回复!
首先那个目录在出问题之后我就查了,确实没了,那两个 ifortvars.sh iccvars.sh 也没有了,我以前查看过,在linux系统里是和vasp一样的图标,所以我猜应该也是什么程序软件的东西。
刚才照您 ...

df显示只有150G的硬盘,对于cluster来说我觉得不太合理。
能否用这个命令:cat /etc/fstab看看
5楼2014-09-12 17:17:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见