24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2411  |  回复: 9
本帖产生 1 个 计算强帖 ,点击这里进行查看

jackyma

新虫 (小有名气)

[求助] 求教:ssh 登录集群某节点时不能进入home目录

研究室的集群计算机其中两个节点ssh登录后,不能进入/home/目录
简单说一下集群的架构:
hpcs01: 管理主机 ip: 192.168.1.1
hpcs02-hpcs40:为各个计算节点。IP:192.168.1.2-40
hpcs-fs:NFS server 文件服务器 IP:192.168.0.100

问题节点hpcs02和hpcs03
登录之后不能进入/home目录,reboot命令和手动重启之后也都不能解决问题!

ls之后可以看到home但是红色显示并闪烁,
cd /home提示No such file or directory。

查看/etc/auto.misc自动mount的设置文件后看到
home    -rw,nfsvers=3,intr,wsize=8192,rsize=8192        192.168.2.100:/home
(这里有点疑问,为什么是2.100?在其他4,5,6等节点下看这个文件,显示的也都不同192.168.x.100IP,x 是递增的)
登录节点hpcs02,ping 192.168.2.100 后出现Destination Host Unreachable错误提示
自己判断是否这个节点不能和文件服务器链接,导致mount失败,进而进入不了/home目录
(疑问?链接不到文件服务器,却可以从这个节点出发ssh登录其他节点,证明这个节点网络链接没有问题)

登录可以进入home的节点,ping 192.168.x。100就可以ping通。

求教高人有没有遇到类似问题或知道解决办法的?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖置顶 ( 共有1个 )

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
cenwanglai: 金币+3, 应助指数+1, 谢谢回复 2012-04-20 22:54:57
cenwanglai: 计算强帖+1, ~~ 2012-04-20 22:55:14
jackyma: 金币+10, ★★★很有帮助, 谢谢这么多天来的交流指点,希望继续交流。 2012-04-22 23:11:33
我感觉你贴出机器的IP真的是有点混乱,但是我觉得你们的机器貌似都配置了双网卡和IB卡。
我认为你们的网络应该是如下配置的:应该
eth0  192.168.1.*
eth1  192.168.3.*
ib0    192.168.2.*

NFS服务器同样也会配置了相同的三套网络。
为了负载平衡,不同的计算节点访问NFS服务器走不同的网络,所以就有些节点mount文件服务器采用不同的网络。

2和3节点的eth1的网络配置感觉出了问题,应该都是192.168.3.*,但是变成192.168.2.*。 而192.168.2.*本来应该是IB网卡的IP,2和3节点本来是想通过IB访问存储的,但是IP被eth1占住,以太网和IB是不同的网络,因此通过192.168.2.*是访问不到存储的
6楼2012-04-20 22:49:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
cenwanglai: 金币+2, 谢谢回复~ 2012-04-20 22:54:03
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个子网,是不是设置了网关
2楼2012-04-19 21:08:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
2楼: Originally posted by zouming1979 at 2012-04-19 21:08:18:
1. NFS server 文件服务器 IP:192.168.0.100,为什么mount 192.168.2.100:/home
2. 网络的子网掩码是多少?是不是掩码出问题了,导致计算节点和文件服务器不在一个子网?如果计算节点和文件服务器本来就不在一个 ...

先谢谢交流。
关于1,我也很不明白,进入节点ping 192.168.0.100不通,只有在管理主机才可以ping通。在各个节点查看自动mount的设置文件(/etc/auto.misc)里显示的IP:/home 各不相同,192.168.x.100.问了其他人说可能是文件服务器的镜像。现在我的有问题的两个节点02,03这个IP相同为192.168.2.100,并且都ping不通。我自己估计问题出在这里。
关于2,网络掩码都是255.255.255.0 。另外需要说明的是这个集群配置是专业人员做好的,之前没有这个问题,这几天突然发现的问题,有可能是连接文件服务器的接口坏掉了。
3楼2012-04-19 23:21:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

【答案】应助回帖

★ ★
cenwanglai: 金币+2, 谢谢应助~ 2012-04-20 22:54:16
网络掩码都是255.255.255.0,可以确认计算节点和NFS服务器不在一个网段,如果计算节点不配网关,是不能访问NFS服务器的,除非文件服务器设置了很多IP地址。如果这样,文件服务器某些IP地址丢失了,导致部分计算节点不能连上了
4楼2012-04-20 01:25:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
4楼: Originally posted by zouming1979 at 2012-04-20 01:25:44:
网络掩码都是255.255.255.0,可以确认计算节点和NFS服务器不在一个网段,如果计算节点不配网关,是不能访问NFS服务器的,除非文件服务器设置了很多IP地址。如果这样,文件服务器某些IP地址丢失了,导致部分计算节 ...

如果看管理主机的/etc/hosts文件可以知道NFS的IP是192.168.0.100。
而管理主机和计算节点是192.168.1.1-40,可以肯定不在同一网段,但是除了02,03节点外其他30几个节点都可以正常访问NSF服务器。之前全都可以访问的,这几天发现两个节点出问题了。
每个节点好像都配置有多个不同网段的IP
这个是在02节点ifconfig得到的
eth0      Link encap:Ethernet  HWaddr 00:15:17:47:09:10
          inet addr:192.168.1.2  Bcast:192.168.1.255  Mask:255.255.255.0
          inet6 addr: fe80::215:17ff:fe47:910/64 Scope:Link
eth1      Link encap:Ethernet  HWaddr 00:15:17:47:09:11
          inet addr:192.168.2.2  Bcast:192.168.2.255  Mask:255.255.255.0
ib0       Link encap:UNSPEC  HWaddr 80-00-04-04-FE-80-00-00-00-00-00-00-00-00-00-00
          inet addr:192.168.3.2  Bcast:192.168.3.255  Mask:255.255.255.0
          inet6 addr: fe80::202:c902:23:5ba1/64 Scope:Link
lo        Link encap:Local Loopback
          inet addr:127.0.0.1  Mask:255.0.0.0
下面是在接到03的IP信息
eth0      Link encap:Ethernet  HWaddr 00:15:17:4FF:B6
          inet addr:192.168.1.3  Bcast:192.168.1.255  Mask:255.255.255.0
          inet6 addr: fe80::215:17ff:fe4f:dfb6/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:25202 errors:0 dropped:0 overruns:0 frame:0
          TX packets:22474 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:8229362 (7.8 MiB)  TX bytes:2086327 (1.9 MiB)
          Base address:0x2020 Memory:b9020000-b9040000

eth1      Link encap:Ethernet  HWaddr 00:15:17:4FF:B7
          inet addr:192.168.2.3  Bcast:192.168.2.255  Mask:255.255.255.0
          UP BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)
          Base address:0x2000 Memory:b9000000-b9020000

lo        Link encap:Local Loopback
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:16436  Metric:1
          RX packets:15704 errors:0 dropped:0 overruns:0 frame:0
          TX packets:15704 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0
下面是节点04的IP信息(这个节点没有问题)
eth0
          inet addr:192.168.1.4  Bcast:192.168.1.255  Mask:255.255.255.0
inet6
eth1
          inet addr:192.168.3.4  Bcast:192.168.3.255  Mask:255.255.255.0
inet6
lo
          inet addr:127.0.0.1  Mask:255.0.0.0
后面还有很多节点就不一一列举了,从上面这些信息可以看出好像各个节点的eth1的ip无规律的,像是动态分配的,专门用来和NFS服务器通信用的。因为,如果该节点的eth1的ip为192.168.3.x,那么在查看/etc/auto.misc看到的NFS的ip为同网段的192.168.3.100
不知道这个是什么机制?
是否所谓的镜像啊?
5楼2012-04-20 13:03:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xztjhs

铁虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
可能一:NFS网络中的某个地方端口坏了。

可能二:网络冲突,解释如下:

你所使用的NFS服务器可能有过专门的配置。
每台机器使用eth0网卡连接到NFS,这个时候NFS和每台计算节点之间都使用专门的一个网段。

这样的好处是带宽利用率高。
坏处就是如你现在知道的,02和03两台机器由于存储网存在冲突,导致了连接失败。如:针对02的NFS服务器为192.168.2.100,但是192.168.2网段又配给了eth1。
针对03的NFS服务器为192.168.3.100,但是192.168.3网段又配给了IB0.

如果出现这个情况,02和03的NFS网络不通就太正常了。

解决方法:联系存储厂家,确定具体配置方式,判断是否存在网络冲突。
非专业,更专注
7楼2012-04-22 21:37:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
6楼: Originally posted by zouming1979 at 2012-04-20 22:49:48:
我感觉你贴出机器的IP真的是有点混乱,但是我觉得你们的机器貌似都配置了双网卡和IB卡。
我认为你们的网络应该是如下配置的:应该
eth0  192.168.1.*
eth1  192.168.3.*
ib0    192.168.2.*

NFS服务器同样 ...

我也看的有些乱,通过查看各个计算节点eth1的网络配置发现没有规律性,并不都是192.168.3.×,给个部分列表:
节点 eth1 IP   NFS IP
02 192.168.2.2 2.100
03 192.168.2.3 2.100
04 192.168.3.4 3.100
05 192.168.3.5 3.100
06 192.168.4.6 4.100
07 192.168.4.7 4.100
08 192.168.5.8 5.100
09 192.168.5.9 5.100
11 192.168.3.11 3.100
12 192.168.4.12 4.100
13 192.168.5.13 5.100
14 192.168.6.1 6.100
15 192.168.6.2 6.100
各个节点对应的NFS IP 为192.168.×.100,(这个IP我是通过查看/etc/atuo.misc文件得知的)是和各个节点的eth1ip处于同一网段的。
关于NFS的网络配置我不是很清楚,而且有不少疑问。因为我无法通过ssh登陆到NFS。
不知道NFS是如何能够设置那么多不同的IP地址?

最让我纳闷儿的是,这些设置我从来都没有动过,按理说设置应该不存在问题,因为之前都可以正常使用的。估计硬件接口故障的可能性比较大吧!
8楼2012-04-22 23:09:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

★ ★
zhangguangping: 金币+2, 谢谢指教! 2012-04-23 08:58:02
说句实话,你们的配置的确相当的奇特。
任何服务器的单个网卡都可以配置多个IP地址,eth1:0 eth1:1 eth1:2 ....因此NFS服务设置如此多的IP肯定是没有问题。
可能是配置的人觉得走多个网络,会提高NFS的性能,就两个节点一个子网,但是实际网络还是这么几套。这种做法个人觉得不会有什么提升,反倒把网络弄得比较乱。
如果nfs mount上的话,你可以用df 看看nfs的具体IP地址
zouming@hpc-login:~> df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sda4             406G  123G  263G  32% /
devtmpfs               16G  128K   16G   1% /dev
tmpfs                  16G   60K   16G   1% /dev/shm
/dev/sda3              50G  339M   47G   1% /opt
homedata:/hpcfs     10T  4T   4.9T   40% /share
如果给出的不是IP地址,从hosts文件中查具体IP地址
zouming@hpc-login:~> cat /etc/hosts|grep -i homedata
10.1.10.1       HomeData

l另外我看你03节点的信息
eth1      Link encap:Ethernet  HWaddr 00:15:17:4FF:B7
          inet addr:192.168.2.3  Bcast:192.168.2.255  Mask:255.255.255.0
          UP BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)  //没有数据
          Base address:0x2000 Memory:b9000000-b9020000

至少eth1网卡是没有传输数据的,操作系统能看到它,至少该网卡还没坏到不能识别。
9楼2012-04-23 00:21:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackyma

新虫 (小有名气)

引用回帖:
9楼: Originally posted by zouming1979 at 2012-04-23 00:21:49:
说句实话,你们的配置的确相当的奇特。
任何服务器的单个网卡都可以配置多个IP地址,eth1:0 eth1:1 eth1:2 ....因此NFS服务设置如此多的IP肯定是没有问题。
可能是配置的人觉得走多个网络,会提高NFS的性能,就 ...

确实比较乱,因为我忽然记起我们的计算节点是分批从同一家公司购买的,也许每次设定不同人员的设定造就了现在混乱局面。
02-09是一批,我在7楼的帖子里贴出的ip显示出每两台在同一网段。
10-13是一批,(10号节点关机没确认IP,估计是192.168.2.10)每台占用一个网段192.168.2.10-5.13
14-40是一批,把全部IP都确认了,分成了4个网段,分别是:
14-20在一个网段内192.168.6.1-6.7
21-27在一个网段内192.168.7.1-7.7
28-34在一个网段内192.168.8.1-8.7
35-40在一个网段内192.168.9.1-9.6
基于如上节点IP的分布,NFS所对应的IP也被分为如下9个:
管理主机也就是一号机hpcs01对应192.168.0.100,这个IP也是在/etc/hosts内看到的hpcs-fs(文件服务器)IP
下面这些是从/etc/auto.misc文件看到的
192.168.2.100
192.168.3.100
192.168.4.100
192.168.5.100
192.168.6.100
192.168.7.100
192.168.8.100
192.168.9.100

也许个人集群基础知识缺乏,看到这些很是感觉混乱。这个问题估计短期内也不好解决了。
如果朋友们有推荐的相关知识的帖子或书籍希望指教!

感谢zuoming1979朋友热心解答,还有5楼的xztjhs 朋友的建议也很有参考意义,可是不知道帖子怎么处于完结状态不能追加悬赏金币了,没法给你了。
10楼2012-04-23 10:32:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 jackyma 的主题更新
信息提示
请填处理意见