| 查看: 2421 | 回复: 9 | ||
| 本帖产生 1 个 计算强帖 ,点击这里进行查看 | ||
[求助]
求教:ssh 登录集群某节点时不能进入home目录
|
||
|
研究室的集群计算机其中两个节点ssh登录后,不能进入/home/目录 简单说一下集群的架构: hpcs01: 管理主机 ip: 192.168.1.1 hpcs02-hpcs40:为各个计算节点。IP:192.168.1.2-40 hpcs-fs:NFS server 文件服务器 IP:192.168.0.100 问题节点hpcs02和hpcs03 登录之后不能进入/home目录,reboot命令和手动重启之后也都不能解决问题! ls之后可以看到home但是红色显示并闪烁, cd /home提示No such file or directory。 查看/etc/auto.misc自动mount的设置文件后看到 home -rw,nfsvers=3,intr,wsize=8192,rsize=8192 192.168.2.100:/home (这里有点疑问,为什么是2.100?在其他4,5,6等节点下看这个文件,显示的也都不同192.168.x.100IP,x 是递增的) 登录节点hpcs02,ping 192.168.2.100 后出现Destination Host Unreachable错误提示 自己判断是否这个节点不能和文件服务器链接,导致mount失败,进而进入不了/home目录 (疑问?链接不到文件服务器,却可以从这个节点出发ssh登录其他节点,证明这个节点网络链接没有问题) 登录可以进入home的节点,ping 192.168.x。100就可以ping通。 求教高人有没有遇到类似问题或知道解决办法的? |
» 猜你喜欢
求国际会议网站
已经有1人回复
求取一些关于纳米材料和纳米技术相关的英文PPT。
已经有0人回复
物理学I论文润色/翻译怎么收费?
已经有248人回复
【复旦大学】二维材料方向招收2026年博士研究生1名
已经有0人回复
北京纳米能源与系统研究所 王中林院士/曹南颖研究员课题组2026级硕/博/博后招生
已经有10人回复
荷兰Utrecht University超快太赫兹光谱王海教授课题招收2026 CSC博士生
已经有22人回复
反铁磁体中的磁性切换:两种不同的机制已成功可视化
已经有0人回复
26申博推荐:南京航空航天大学国际前沿科学研究院光学方向招收博士生!
已经有0人回复
求标准粉末衍射卡号 ICDD 01-076-1802
已经有0人回复
» 本主题相关价值贴推荐,对您同样有帮助:
求教制作Ag nanoparticle的问题
已经有12人回复
遇到实验室有些同学不按章程用集群怎么办?
已经有41人回复
集群配置ssh,需要要给每个用户都单独配置吗?
已经有26人回复
高人求教 ,F-Cecure SSH Client 怎么样实现在非实验室的条件下远程登录?
已经有4人回复
求教:如何配置0.2M氢氧化钠甲醇溶液?
已经有7人回复
castep计算Fe2O3声子谱失败,原因求教~~
已经有10人回复
三大检索之一的ISTP(现已更名为CPCI-S/SSH)检索
已经有17人回复
【求助】用ssh从服务器传输文件时一下变得非常慢
已经有3人回复
【求助】集群,如何设置某个节点用多个CPU?
已经有5人回复
zouming1979
捐助贵宾 (小有名气)
- 计算强帖: 1
- 应助: 13 (小学生)
- 金币: 5405.8
- 帖子: 83
- 在线: 54.5小时
- 虫号: 1733983
- 注册: 2012-04-03
- 性别: GG
- 专业: 计算机体系结构
2楼2012-04-19 21:08:18
|
先谢谢交流。 关于1,我也很不明白,进入节点ping 192.168.0.100不通,只有在管理主机才可以ping通。在各个节点查看自动mount的设置文件(/etc/auto.misc)里显示的IP:/home 各不相同,192.168.x.100.问了其他人说可能是文件服务器的镜像。现在我的有问题的两个节点02,03这个IP相同为192.168.2.100,并且都ping不通。我自己估计问题出在这里。 关于2,网络掩码都是255.255.255.0 。另外需要说明的是这个集群配置是专业人员做好的,之前没有这个问题,这几天突然发现的问题,有可能是连接文件服务器的接口坏掉了。 |
3楼2012-04-19 23:21:34
zouming1979
捐助贵宾 (小有名气)
- 计算强帖: 1
- 应助: 13 (小学生)
- 金币: 5405.8
- 帖子: 83
- 在线: 54.5小时
- 虫号: 1733983
- 注册: 2012-04-03
- 性别: GG
- 专业: 计算机体系结构
4楼2012-04-20 01:25:44
|
如果看管理主机的/etc/hosts文件可以知道NFS的IP是192.168.0.100。 而管理主机和计算节点是192.168.1.1-40,可以肯定不在同一网段,但是除了02,03节点外其他30几个节点都可以正常访问NSF服务器。之前全都可以访问的,这几天发现两个节点出问题了。 每个节点好像都配置有多个不同网段的IP 这个是在02节点ifconfig得到的 eth0 Link encap:Ethernet HWaddr 00:15:17:47:09:10 inet addr:192.168.1.2 Bcast:192.168.1.255 Mask:255.255.255.0 inet6 addr: fe80::215:17ff:fe47:910/64 Scope:Link eth1 Link encap:Ethernet HWaddr 00:15:17:47:09:11 inet addr:192.168.2.2 Bcast:192.168.2.255 Mask:255.255.255.0 ib0 Link encap:UNSPEC HWaddr 80-00-04-04-FE-80-00-00-00-00-00-00-00-00-00-00 inet addr:192.168.3.2 Bcast:192.168.3.255 Mask:255.255.255.0 inet6 addr: fe80::202:c902:23:5ba1/64 Scope:Link lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 下面是在接到03的IP信息 eth0 Link encap:Ethernet HWaddr 00:15:17:4F F:B6inet addr:192.168.1.3 Bcast:192.168.1.255 Mask:255.255.255.0 inet6 addr: fe80::215:17ff:fe4f:dfb6/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:25202 errors:0 dropped:0 overruns:0 frame:0 TX packets:22474 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:8229362 (7.8 MiB) TX bytes:2086327 (1.9 MiB) Base address:0x2020 Memory:b9020000-b9040000 eth1 Link encap:Ethernet HWaddr 00:15:17:4F F:B7inet addr:192.168.2.3 Bcast:192.168.2.255 Mask:255.255.255.0 UP BROADCAST MULTICAST MTU:1500 Metric:1 RX packets:0 errors:0 dropped:0 overruns:0 frame:0 TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) Base address:0x2000 Memory:b9000000-b9020000 lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1/128 Scope:Host UP LOOPBACK RUNNING MTU:16436 Metric:1 RX packets:15704 errors:0 dropped:0 overruns:0 frame:0 TX packets:15704 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 下面是节点04的IP信息(这个节点没有问题) eth0 inet addr:192.168.1.4 Bcast:192.168.1.255 Mask:255.255.255.0 inet6 eth1 inet addr:192.168.3.4 Bcast:192.168.3.255 Mask:255.255.255.0 inet6 lo inet addr:127.0.0.1 Mask:255.0.0.0 后面还有很多节点就不一一列举了,从上面这些信息可以看出好像各个节点的eth1的ip无规律的,像是动态分配的,专门用来和NFS服务器通信用的。因为,如果该节点的eth1的ip为192.168.3.x,那么在查看/etc/auto.misc看到的NFS的ip为同网段的192.168.3.100 不知道这个是什么机制? 是否所谓的镜像啊? |
5楼2012-04-20 13:03:07
zouming1979
捐助贵宾 (小有名气)
- 计算强帖: 1
- 应助: 13 (小学生)
- 金币: 5405.8
- 帖子: 83
- 在线: 54.5小时
- 虫号: 1733983
- 注册: 2012-04-03
- 性别: GG
- 专业: 计算机体系结构
【答案】应助回帖
★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
cenwanglai: 金币+3, 应助指数+1, 谢谢回复 2012-04-20 22:54:57
cenwanglai: 计算强帖+1, ~~ 2012-04-20 22:55:14
jackyma: 金币+10, ★★★很有帮助, 谢谢这么多天来的交流指点,希望继续交流。 2012-04-22 23:11:33
cenwanglai: 金币+3, 应助指数+1, 谢谢回复 2012-04-20 22:54:57
cenwanglai: 计算强帖+1, ~~ 2012-04-20 22:55:14
jackyma: 金币+10, ★★★很有帮助, 谢谢这么多天来的交流指点,希望继续交流。 2012-04-22 23:11:33
|
我感觉你贴出机器的IP真的是有点混乱,但是我觉得你们的机器貌似都配置了双网卡和IB卡。 我认为你们的网络应该是如下配置的:应该 eth0 192.168.1.* eth1 192.168.3.* ib0 192.168.2.* NFS服务器同样也会配置了相同的三套网络。 为了负载平衡,不同的计算节点访问NFS服务器走不同的网络,所以就有些节点mount文件服务器采用不同的网络。 2和3节点的eth1的网络配置感觉出了问题,应该都是192.168.3.*,但是变成192.168.2.*。 而192.168.2.*本来应该是IB网卡的IP,2和3节点本来是想通过IB访问存储的,但是IP被eth1占住,以太网和IB是不同的网络,因此通过192.168.2.*是访问不到存储的 |
6楼2012-04-20 22:49:48
【答案】应助回帖
感谢参与,应助指数 +1
|
可能一:NFS网络中的某个地方端口坏了。 可能二:网络冲突,解释如下: 你所使用的NFS服务器可能有过专门的配置。 每台机器使用eth0网卡连接到NFS,这个时候NFS和每台计算节点之间都使用专门的一个网段。 这样的好处是带宽利用率高。 坏处就是如你现在知道的,02和03两台机器由于存储网存在冲突,导致了连接失败。如:针对02的NFS服务器为192.168.2.100,但是192.168.2网段又配给了eth1。 针对03的NFS服务器为192.168.3.100,但是192.168.3网段又配给了IB0. 如果出现这个情况,02和03的NFS网络不通就太正常了。 解决方法:联系存储厂家,确定具体配置方式,判断是否存在网络冲突。 |

7楼2012-04-22 21:37:09
|
我也看的有些乱,通过查看各个计算节点eth1的网络配置发现没有规律性,并不都是192.168.3.×,给个部分列表: 节点 eth1 IP NFS IP 02 192.168.2.2 2.100 03 192.168.2.3 2.100 04 192.168.3.4 3.100 05 192.168.3.5 3.100 06 192.168.4.6 4.100 07 192.168.4.7 4.100 08 192.168.5.8 5.100 09 192.168.5.9 5.100 11 192.168.3.11 3.100 12 192.168.4.12 4.100 13 192.168.5.13 5.100 14 192.168.6.1 6.100 15 192.168.6.2 6.100 各个节点对应的NFS IP 为192.168.×.100,(这个IP我是通过查看/etc/atuo.misc文件得知的)是和各个节点的eth1ip处于同一网段的。 关于NFS的网络配置我不是很清楚,而且有不少疑问。因为我无法通过ssh登陆到NFS。 不知道NFS是如何能够设置那么多不同的IP地址? 最让我纳闷儿的是,这些设置我从来都没有动过,按理说设置应该不存在问题,因为之前都可以正常使用的。估计硬件接口故障的可能性比较大吧! |
8楼2012-04-22 23:09:24
zouming1979
捐助贵宾 (小有名气)
- 计算强帖: 1
- 应助: 13 (小学生)
- 金币: 5405.8
- 帖子: 83
- 在线: 54.5小时
- 虫号: 1733983
- 注册: 2012-04-03
- 性别: GG
- 专业: 计算机体系结构
★ ★
zhangguangping: 金币+2, 谢谢指教! 2012-04-23 08:58:02
zhangguangping: 金币+2, 谢谢指教! 2012-04-23 08:58:02
|
说句实话,你们的配置的确相当的奇特。 任何服务器的单个网卡都可以配置多个IP地址,eth1:0 eth1:1 eth1:2 ....因此NFS服务设置如此多的IP肯定是没有问题。 可能是配置的人觉得走多个网络,会提高NFS的性能,就两个节点一个子网,但是实际网络还是这么几套。这种做法个人觉得不会有什么提升,反倒把网络弄得比较乱。 如果nfs mount上的话,你可以用df 看看nfs的具体IP地址 zouming@hpc-login:~> df -h Filesystem Size Used Avail Use% Mounted on /dev/sda4 406G 123G 263G 32% / devtmpfs 16G 128K 16G 1% /dev tmpfs 16G 60K 16G 1% /dev/shm /dev/sda3 50G 339M 47G 1% /opt homedata:/hpcfs 10T 4T 4.9T 40% /share 如果给出的不是IP地址,从hosts文件中查具体IP地址 zouming@hpc-login:~> cat /etc/hosts|grep -i homedata 10.1.10.1 HomeData l另外我看你03节点的信息 eth1 Link encap:Ethernet HWaddr 00:15:17:4FF:B7 inet addr:192.168.2.3 Bcast:192.168.2.255 Mask:255.255.255.0 UP BROADCAST MULTICAST MTU:1500 Metric:1 RX packets:0 errors:0 dropped:0 overruns:0 frame:0 TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) //没有数据 Base address:0x2000 Memory:b9000000-b9020000 至少eth1网卡是没有传输数据的,操作系统能看到它,至少该网卡还没坏到不能识别。 |
9楼2012-04-23 00:21:49
|
确实比较乱,因为我忽然记起我们的计算节点是分批从同一家公司购买的,也许每次设定不同人员的设定造就了现在混乱局面。 02-09是一批,我在7楼的帖子里贴出的ip显示出每两台在同一网段。 10-13是一批,(10号节点关机没确认IP,估计是192.168.2.10)每台占用一个网段192.168.2.10-5.13 14-40是一批,把全部IP都确认了,分成了4个网段,分别是: 14-20在一个网段内192.168.6.1-6.7 21-27在一个网段内192.168.7.1-7.7 28-34在一个网段内192.168.8.1-8.7 35-40在一个网段内192.168.9.1-9.6 基于如上节点IP的分布,NFS所对应的IP也被分为如下9个: 管理主机也就是一号机hpcs01对应192.168.0.100,这个IP也是在/etc/hosts内看到的hpcs-fs(文件服务器)IP 下面这些是从/etc/auto.misc文件看到的 192.168.2.100 192.168.3.100 192.168.4.100 192.168.5.100 192.168.6.100 192.168.7.100 192.168.8.100 192.168.9.100 也许个人集群基础知识缺乏,看到这些很是感觉混乱。这个问题估计短期内也不好解决了。 如果朋友们有推荐的相关知识的帖子或书籍希望指教! 感谢zuoming1979朋友热心解答,还有5楼的xztjhs 朋友的建议也很有参考意义,可是不知道帖子怎么处于完结状态不能追加悬赏金币了,没法给你了。 |
10楼2012-04-23 10:32:18













回复此楼
F:B6