24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2418  |  回复: 9
本帖产生 1 个 计算强帖 ,点击这里进行查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

jackyma

新虫 (小有名气)

[求助] 求教:ssh 登录集群某节点时不能进入home目录

研究室的集群计算机其中两个节点ssh登录后,不能进入/home/目录
简单说一下集群的架构:
hpcs01: 管理主机 ip: 192.168.1.1
hpcs02-hpcs40:为各个计算节点。IP:192.168.1.2-40
hpcs-fs:NFS server 文件服务器 IP:192.168.0.100

问题节点hpcs02和hpcs03
登录之后不能进入/home目录,reboot命令和手动重启之后也都不能解决问题!

ls之后可以看到home但是红色显示并闪烁,
cd /home提示No such file or directory。

查看/etc/auto.misc自动mount的设置文件后看到
home    -rw,nfsvers=3,intr,wsize=8192,rsize=8192        192.168.2.100:/home
(这里有点疑问,为什么是2.100?在其他4,5,6等节点下看这个文件,显示的也都不同192.168.x.100IP,x 是递增的)
登录节点hpcs02,ping 192.168.2.100 后出现Destination Host Unreachable错误提示
自己判断是否这个节点不能和文件服务器链接,导致mount失败,进而进入不了/home目录
(疑问?链接不到文件服务器,却可以从这个节点出发ssh登录其他节点,证明这个节点网络链接没有问题)

登录可以进入home的节点,ping 192.168.x。100就可以ping通。

求教高人有没有遇到类似问题或知道解决办法的?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
6楼: Originally posted by zouming1979 at 2012-04-20 22:49:48:
我感觉你贴出机器的IP真的是有点混乱,但是我觉得你们的机器貌似都配置了双网卡和IB卡。
我认为你们的网络应该是如下配置的:应该
eth0  192.168.1.*
eth1  192.168.3.*
ib0    192.168.2.*

NFS服务器同样 ...

我也看的有些乱,通过查看各个计算节点eth1的网络配置发现没有规律性,并不都是192.168.3.×,给个部分列表:
节点 eth1 IP   NFS IP
02 192.168.2.2 2.100
03 192.168.2.3 2.100
04 192.168.3.4 3.100
05 192.168.3.5 3.100
06 192.168.4.6 4.100
07 192.168.4.7 4.100
08 192.168.5.8 5.100
09 192.168.5.9 5.100
11 192.168.3.11 3.100
12 192.168.4.12 4.100
13 192.168.5.13 5.100
14 192.168.6.1 6.100
15 192.168.6.2 6.100
各个节点对应的NFS IP 为192.168.×.100,(这个IP我是通过查看/etc/atuo.misc文件得知的)是和各个节点的eth1ip处于同一网段的。
关于NFS的网络配置我不是很清楚,而且有不少疑问。因为我无法通过ssh登陆到NFS。
不知道NFS是如何能够设置那么多不同的IP地址?

最让我纳闷儿的是,这些设置我从来都没有动过,按理说设置应该不存在问题,因为之前都可以正常使用的。估计硬件接口故障的可能性比较大吧!
8楼2012-04-22 23:09:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 10 个回答

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
cenwanglai: 金币+2, 谢谢回复~ 2012-04-20 22:54:03
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个子网,是不是设置了网关
2楼2012-04-19 21:08:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
2楼: Originally posted by zouming1979 at 2012-04-19 21:08:18:
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个 ...

先谢谢交流。
关于1,我也很不明白,进入节点ping 192.168.0.100不通,只有在管理主机才可以ping通。在各个节点查看自动mount的设置文件(/etc/auto.misc)里显示的IP:/home 各不相同,192.168.x.100.问了其他人说可能是文件服务器的镜像。现在我的有问题的两个节点02,03这个IP相同为192.168.2.100,并且都ping不通。我自己估计问题出在这里。
关于2,网络掩码都是255.255.255.0 。另外需要说明的是这个集群配置是专业人员做好的,之前没有这个问题,这几天突然发现的问题,有可能是连接文件服务器的接口坏掉了。
3楼2012-04-19 23:21:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
cenwanglai: 金币+2, 谢谢应助~ 2012-04-20 22:54:16
网络掩码都是255.255.255.0,可以确认计算节点和NFS服务器不在一个网段,如果计算节点不配网关,是不能访问NFS服务器的,除非文件服务器设置了很多IP地址。如果这样,文件服务器某些IP地址丢失了,导致部分计算节点不能连上了
4楼2012-04-20 01:25:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见