24小时热门版块排行榜    

查看: 2504  |  回复: 9
本帖产生 1 个 计算强帖 ,点击这里进行查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

jackyma

新虫 (小有名气)

[求助] 求教:ssh 登录集群某节点时不能进入home目录

研究室的集群计算机其中两个节点ssh登录后,不能进入/home/目录
简单说一下集群的架构:
hpcs01: 管理主机 ip: 192.168.1.1
hpcs02-hpcs40:为各个计算节点。IP:192.168.1.2-40
hpcs-fs:NFS server 文件服务器 IP:192.168.0.100

问题节点hpcs02和hpcs03
登录之后不能进入/home目录,reboot命令和手动重启之后也都不能解决问题!

ls之后可以看到home但是红色显示并闪烁,
cd /home提示No such file or directory。

查看/etc/auto.misc自动mount的设置文件后看到
home    -rw,nfsvers=3,intr,wsize=8192,rsize=8192        192.168.2.100:/home
(这里有点疑问,为什么是2.100?在其他4,5,6等节点下看这个文件,显示的也都不同192.168.x.100IP,x 是递增的)
登录节点hpcs02,ping 192.168.2.100 后出现Destination Host Unreachable错误提示
自己判断是否这个节点不能和文件服务器链接,导致mount失败,进而进入不了/home目录
(疑问?链接不到文件服务器,却可以从这个节点出发ssh登录其他节点,证明这个节点网络链接没有问题)

登录可以进入home的节点,ping 192.168.x。100就可以ping通。

求教高人有没有遇到类似问题或知道解决办法的?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

★ ★
zhangguangping: 金币+2, 谢谢指教! 2012-04-23 08:58:02
说句实话,你们的配置的确相当的奇特。
任何服务器的单个网卡都可以配置多个IP地址,eth1:0 eth1:1 eth1:2 ....因此NFS服务设置如此多的IP肯定是没有问题。
可能是配置的人觉得走多个网络,会提高NFS的性能,就两个节点一个子网,但是实际网络还是这么几套。这种做法个人觉得不会有什么提升,反倒把网络弄得比较乱。
如果nfs mount上的话,你可以用df 看看nfs的具体IP地址
zouming@hpc-login:~> df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sda4             406G  123G  263G  32% /
devtmpfs               16G  128K   16G   1% /dev
tmpfs                  16G   60K   16G   1% /dev/shm
/dev/sda3              50G  339M   47G   1% /opt
homedata:/hpcfs     10T  4T   4.9T   40% /share
如果给出的不是IP地址,从hosts文件中查具体IP地址
zouming@hpc-login:~> cat /etc/hosts|grep -i homedata
10.1.10.1       HomeData

l另外我看你03节点的信息
eth1      Link encap:Ethernet  HWaddr 00:15:17:4FF:B7
          inet addr:192.168.2.3  Bcast:192.168.2.255  Mask:255.255.255.0
          UP BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)  //没有数据
          Base address:0x2000 Memory:b9000000-b9020000

至少eth1网卡是没有传输数据的,操作系统能看到它,至少该网卡还没坏到不能识别。
9楼2012-04-23 00:21:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 10 个回答

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
cenwanglai: 金币+2, 谢谢回复~ 2012-04-20 22:54:03
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个子网,是不是设置了网关
2楼2012-04-19 21:08:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
2楼: Originally posted by zouming1979 at 2012-04-19 21:08:18:
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个 ...

先谢谢交流。
关于1,我也很不明白,进入节点ping 192.168.0.100不通,只有在管理主机才可以ping通。在各个节点查看自动mount的设置文件(/etc/auto.misc)里显示的IP:/home 各不相同,192.168.x.100.问了其他人说可能是文件服务器的镜像。现在我的有问题的两个节点02,03这个IP相同为192.168.2.100,并且都ping不通。我自己估计问题出在这里。
关于2,网络掩码都是255.255.255.0 。另外需要说明的是这个集群配置是专业人员做好的,之前没有这个问题,这几天突然发现的问题,有可能是连接文件服务器的接口坏掉了。
3楼2012-04-19 23:21:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
cenwanglai: 金币+2, 谢谢应助~ 2012-04-20 22:54:16
网络掩码都是255.255.255.0,可以确认计算节点和NFS服务器不在一个网段,如果计算节点不配网关,是不能访问NFS服务器的,除非文件服务器设置了很多IP地址。如果这样,文件服务器某些IP地址丢失了,导致部分计算节点不能连上了
4楼2012-04-20 01:25:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见