24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2415  |  回复: 9
本帖产生 1 个 计算强帖 ,点击这里进行查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

jackyma

新虫 (小有名气)

[求助] 求教:ssh 登录集群某节点时不能进入home目录

研究室的集群计算机其中两个节点ssh登录后,不能进入/home/目录
简单说一下集群的架构:
hpcs01: 管理主机 ip: 192.168.1.1
hpcs02-hpcs40:为各个计算节点。IP:192.168.1.2-40
hpcs-fs:NFS server 文件服务器 IP:192.168.0.100

问题节点hpcs02和hpcs03
登录之后不能进入/home目录,reboot命令和手动重启之后也都不能解决问题!

ls之后可以看到home但是红色显示并闪烁,
cd /home提示No such file or directory。

查看/etc/auto.misc自动mount的设置文件后看到
home    -rw,nfsvers=3,intr,wsize=8192,rsize=8192        192.168.2.100:/home
(这里有点疑问,为什么是2.100?在其他4,5,6等节点下看这个文件,显示的也都不同192.168.x.100IP,x 是递增的)
登录节点hpcs02,ping 192.168.2.100 后出现Destination Host Unreachable错误提示
自己判断是否这个节点不能和文件服务器链接,导致mount失败,进而进入不了/home目录
(疑问?链接不到文件服务器,却可以从这个节点出发ssh登录其他节点,证明这个节点网络链接没有问题)

登录可以进入home的节点,ping 192.168.x。100就可以ping通。

求教高人有没有遇到类似问题或知道解决办法的?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xztjhs

铁虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
可能一:NFS网络中的某个地方端口坏了。

可能二:网络冲突,解释如下:

你所使用的NFS服务器可能有过专门的配置。
每台机器使用eth0网卡连接到NFS,这个时候NFS和每台计算节点之间都使用专门的一个网段。

这样的好处是带宽利用率高。
坏处就是如你现在知道的,02和03两台机器由于存储网存在冲突,导致了连接失败。如:针对02的NFS服务器为192.168.2.100,但是192.168.2网段又配给了eth1。
针对03的NFS服务器为192.168.3.100,但是192.168.3网段又配给了IB0.

如果出现这个情况,02和03的NFS网络不通就太正常了。

解决方法:联系存储厂家,确定具体配置方式,判断是否存在网络冲突。
非专业,更专注
7楼2012-04-22 21:37:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 10 个回答

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
cenwanglai: 金币+2, 谢谢回复~ 2012-04-20 22:54:03
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个子网,是不是设置了网关
2楼2012-04-19 21:08:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
2楼: Originally posted by zouming1979 at 2012-04-19 21:08:18:
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个 ...

先谢谢交流。
关于1,我也很不明白,进入节点ping 192.168.0.100不通,只有在管理主机才可以ping通。在各个节点查看自动mount的设置文件(/etc/auto.misc)里显示的IP:/home 各不相同,192.168.x.100.问了其他人说可能是文件服务器的镜像。现在我的有问题的两个节点02,03这个IP相同为192.168.2.100,并且都ping不通。我自己估计问题出在这里。
关于2,网络掩码都是255.255.255.0 。另外需要说明的是这个集群配置是专业人员做好的,之前没有这个问题,这几天突然发现的问题,有可能是连接文件服务器的接口坏掉了。
3楼2012-04-19 23:21:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
cenwanglai: 金币+2, 谢谢应助~ 2012-04-20 22:54:16
网络掩码都是255.255.255.0,可以确认计算节点和NFS服务器不在一个网段,如果计算节点不配网关,是不能访问NFS服务器的,除非文件服务器设置了很多IP地址。如果这样,文件服务器某些IP地址丢失了,导致部分计算节点不能连上了
4楼2012-04-20 01:25:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见