24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2414  |  回复: 9
本帖产生 1 个 计算强帖 ,点击这里进行查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

jackyma

新虫 (小有名气)

[求助] 求教:ssh 登录集群某节点时不能进入home目录

研究室的集群计算机其中两个节点ssh登录后,不能进入/home/目录
简单说一下集群的架构:
hpcs01: 管理主机 ip: 192.168.1.1
hpcs02-hpcs40:为各个计算节点。IP:192.168.1.2-40
hpcs-fs:NFS server 文件服务器 IP:192.168.0.100

问题节点hpcs02和hpcs03
登录之后不能进入/home目录,reboot命令和手动重启之后也都不能解决问题!

ls之后可以看到home但是红色显示并闪烁,
cd /home提示No such file or directory。

查看/etc/auto.misc自动mount的设置文件后看到
home    -rw,nfsvers=3,intr,wsize=8192,rsize=8192        192.168.2.100:/home
(这里有点疑问,为什么是2.100?在其他4,5,6等节点下看这个文件,显示的也都不同192.168.x.100IP,x 是递增的)
登录节点hpcs02,ping 192.168.2.100 后出现Destination Host Unreachable错误提示
自己判断是否这个节点不能和文件服务器链接,导致mount失败,进而进入不了/home目录
(疑问?链接不到文件服务器,却可以从这个节点出发ssh登录其他节点,证明这个节点网络链接没有问题)

登录可以进入home的节点,ping 192.168.x。100就可以ping通。

求教高人有没有遇到类似问题或知道解决办法的?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
9楼: Originally posted by zouming1979 at 2012-04-23 00:21:49:
说句实话,你们的配置的确相当的奇特。
任何服务器的单个网卡都可以配置多个IP地址,eth1:0 eth1:1 eth1:2 ....因此NFS服务设置如此多的IP肯定是没有问题。
可能是配置的人觉得走多个网络,会提高NFS的性能,就 ...

确实比较乱,因为我忽然记起我们的计算节点是分批从同一家公司购买的,也许每次设定不同人员的设定造就了现在混乱局面。
02-09是一批,我在7楼的帖子里贴出的ip显示出每两台在同一网段。
10-13是一批,(10号节点关机没确认IP,估计是192.168.2.10)每台占用一个网段192.168.2.10-5.13
14-40是一批,把全部IP都确认了,分成了4个网段,分别是:
14-20在一个网段内192.168.6.1-6.7
21-27在一个网段内192.168.7.1-7.7
28-34在一个网段内192.168.8.1-8.7
35-40在一个网段内192.168.9.1-9.6
基于如上节点IP的分布,NFS所对应的IP也被分为如下9个:
管理主机也就是一号机hpcs01对应192.168.0.100,这个IP也是在/etc/hosts内看到的hpcs-fs(文件服务器)IP
下面这些是从/etc/auto.misc文件看到的
192.168.2.100
192.168.3.100
192.168.4.100
192.168.5.100
192.168.6.100
192.168.7.100
192.168.8.100
192.168.9.100

也许个人集群基础知识缺乏,看到这些很是感觉混乱。这个问题估计短期内也不好解决了。
如果朋友们有推荐的相关知识的帖子或书籍希望指教!

感谢zuoming1979朋友热心解答,还有5楼的xztjhs 朋友的建议也很有参考意义,可是不知道帖子怎么处于完结状态不能追加悬赏金币了,没法给你了。
10楼2012-04-23 10:32:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 10 个回答

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
cenwanglai: 金币+2, 谢谢回复~ 2012-04-20 22:54:03
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个子网,是不是设置了网关
2楼2012-04-19 21:08:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
2楼: Originally posted by zouming1979 at 2012-04-19 21:08:18:
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个 ...

先谢谢交流。
关于1,我也很不明白,进入节点ping 192.168.0.100不通,只有在管理主机才可以ping通。在各个节点查看自动mount的设置文件(/etc/auto.misc)里显示的IP:/home 各不相同,192.168.x.100.问了其他人说可能是文件服务器的镜像。现在我的有问题的两个节点02,03这个IP相同为192.168.2.100,并且都ping不通。我自己估计问题出在这里。
关于2,网络掩码都是255.255.255.0 。另外需要说明的是这个集群配置是专业人员做好的,之前没有这个问题,这几天突然发现的问题,有可能是连接文件服务器的接口坏掉了。
3楼2012-04-19 23:21:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
cenwanglai: 金币+2, 谢谢应助~ 2012-04-20 22:54:16
网络掩码都是255.255.255.0,可以确认计算节点和NFS服务器不在一个网段,如果计算节点不配网关,是不能访问NFS服务器的,除非文件服务器设置了很多IP地址。如果这样,文件服务器某些IP地址丢失了,导致部分计算节点不能连上了
4楼2012-04-20 01:25:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见