【分享】电脑集群常见问题[已搜索,无重复]
一、为什么我的电脑上不了网?
一般在局域网中,上不了网有以下几种可能:
1、网线接口松动(网线插口是否损坏?网线是否被压裂?)
2、集线器、交换机、Modem等设备出现问题(这些设备上相关指示灯是否正常显示?)
3、系统IP地址和网关等设置不正确(网关是否和单位网关设置一致?IP是否有冲突?DNS是否设置正确?)
4、上网客户端软件出现问题(帐号密码是否错误?服务器端是否正常?)
5、浏览器软件设置不正确或者被病毒损坏
按照步骤从以上几个方面逐一排查问题一般都能解决问题。
二、常见的PC故障开机报警声及解决办法有哪些?
这些问题基本都是属于硬件问题,大多数情况下都是因为相关硬件设备没有连接好,可以从以下几个方面查找 :
1、重插显卡
2、检查显示器,并重新插DAI接口
3、将主板上所有连线重新插一次
4、重插PCI,AGP,或其他连接卡
三 、开机后死机是什么原因?
有可能是硬件问题和软件问题。
硬件问题(解决方法)包括:
1、 散热问题(北桥芯片、CPU、显卡) (更换质量更好的散热风扇、涂抹硅胶等)
2、 电源输出功率过小、电源的老化 (更换电源、检查插座功率限制等)
3、 内存问题(逐条检测内存性能以及内存插槽排查问题)
4、 如果CPU超频后出现的现象(降频)
5、 显卡插槽损坏 (显卡插在其它PCI插槽上)
软件方面主要是各种病毒木马以及系统漏洞的作用,可以安装杀毒软件、防火墙、系统漏洞补丁来解决问题。
四、内存报错怎么回事?
可能原因:
1、内存不兼容——更换其他内存条
2、运行大内存任务时间久了后报错——是因为内存温度过高,此时可在机箱中加风扇等加强散热 。
3、内存没插紧——可将内存条拔下后重新插入
五、机器声音不正常怎么回事?
可能原因: CPU风扇、机箱风扇坏了,需要换风扇。 或者某些部件没有固定紧造成机械部件共振,可以通过加固或者改变固定部件形状来改善。
六、为什么装机后机器分辨率不能调整?
一般是因为没有安装正确的显卡驱动,更换显卡驱动后可解决。
七、硬盘格式化出错怎么办?
检测硬盘是否有坏块。在终端输入命令:“badblocks -ns”来检测,或者用其它硬盘检测工具来检测。如果有坏块,则需更换硬盘。
八、SATA盘识别成了hda
解决方案:在BIOS里打开SATA控制
九、安装gromacs 时出现以下错误信息
error:cannot find fftw3 library
解决方案: 在安装fftw3时,运行./configure –enable-float 必须加—enable-float。
十、rsh 出现以下出错信息:trying krb4 rlogin....
trying normal rlogin
解决办法:卸载掉krb5有关的一个软件包。运行命令 rpm -qa`which rlogin`
查找krb5-workstation-...然后卸载: rpm -e krb5-workstation-...
十一、为什么安装ganglia时没有出现libconfuse.so...
解决方案:在终端下输入命令:vi /etc/ld.so.conf 在该配置文件中加入/usr/local/lib。然后运行命令:/sbin/ldconfig。
如果出现不能显示图像,出现8652连接错误等信息,只需关闭防火墙和Selinux即可。
十二、如何改变linux的语言环境?
解决方案:
(1)图形界面中进行配置:依次用鼠标点击任务栏上的系统→管理→语言,会弹出一个语言选择的窗口(如果不是root用户的话,会要求输入root密码),从中选中需要的语言,注销下重新登录即可(一般不用重启);
(2)使用命令行进行配置:在终端下输入命令vi /etc/sysconfig/i18n,编辑其中的内容。如果想要使用中文环境编辑其内容为:LANG="zh_CN.UTF-8";如果想要英文环境则编辑其内容为:LANG="en_US.UTF-8",保存后,注销系统重新登录即可。
十三、使用Gaussian 03时,为什么将Windows版本下的输入文件(如abc.gjf)直接放在linux下使用,运行g03 abc.gjf 系统会提示语法错误之类的信息?
这是因为输入文件的格式不对,在linux下不能直接使用。可使用linux下的命令dos2unix先处理下即可。具体可使用命令: dos2unix abc.gjf
输入:g03 abc.gjf即可运行(有时可能需要将abc.gjf改名为abc.com再运行)
十四、请问集群系统的开机和关机一般应该按照什么样的顺序?
集群系统一般都提供有nfs、nis、系统监控服务器、作业管理服务器等多种服务。关机的原则是要保证服务器端要后于客户端关机,开机的原则是保证服务器端要先于客户端开机。而一般的集群都把服务器集中在管理节点上,所以关机当然是最后关管理节点,开机时先开管理节点,等管理节点完全启动后再开其它客户节点。
十五、为什么用“mpd &”来启动mpi守护进程时总是显示“mpd failed: gethostbyname_ex failed for XX”?
这是因为无法从/etc/hosts文件中获取ip地址和主机名称的解析,请首先检查/etc/hosts文件中是否有当前用户ip地址和主机名称那行。比如当前主机名是node02,
ip地址是192.168.0.2,那么在/etc/hosts文件中必须要有“192.168.0.2 node02”这一行。
十六、为什么运行“mpdallexit”时候显示“mpdallexit (mpdallexit 54): unexpected msg from mpd :{'cmd': 'invalid_username_to_make_this_request'}: ”?
请首先利用“ps -ef|grep mpd”来检查系统有几个mpd在运行,并且检查用户主目录下的.mpd.conf文件中的标示,以及用户权限问题。
十七、我用的是torque pbs作业管理系统,为什么提交作业后显示处于“Q”状态而不运行?
pbs一般都依赖于硬盘资源、NFS和NIS以及网络连接,如果作业处于“Q”状态请先确认不是因为其它作业占用系统资源导致无法分配资源所致。然后依次检查网络、NIS、NFS、硬盘设置以及并行编译器设置等。
十八、我在集群环境中运行mpd启动各个节点上的mpd守候进程后,过段时间以后用“mpdtrace -l”会看到有些节点丢失了?
这个问题最可能是因为网络连接的问题,如果是通过交换机连接各个节点,请确认交换机处于正确的工作模式下,并检查网线插口是否有松动脱落现象。
十九、为什么利用mpirun提交并行作业后,总是显示某些节点上不存在此文件?
mpich要求程序存放在各个节点上相同的目录下。这可以通过两种方法做到:
(1)把可执行文件在各个节点的相同目录下拷贝一份;
(2)建立一个nfs目录,通过网络文件共享的方式来共享一个目录,把可执行文件放在这个共享目录下。所以如果显示节点上不存在此文件应先检查nfs共享目录是否挂载成功。
二十、我想在电脑上使用linux和windows两种操作系统,请问怎么办?
解决方案:
1.安装双系统,先安装windows,然后在剩下的空闲分区安装linux。
2.先安装windows,然后在windows里面安装vmvare等虚拟机软件,在虚拟机中安装linux。
3.先安装linux,然后在linux里面安装vmvare、win4lin、virtualbox等虚拟机软件,然后在虚拟机中安装windows. 如果只是想 在linux下运行一些简单的windows程序,那么不用装虚拟机,可以装一个wine软件试试。
二十一、利用linux下的gnu make来编译具有很多小程序的大软件非常慢,有没有快一些的办法?
你可以尝试“make -j4”来加速编译过程,这个数字4表示同时编译4个文件,可以根据实际情况来进行调整。
二十二、怎样从windows客户端登录linux,如何以图形方式登录?
可以使用ssh客户端软件putty、SSH SECURE SHELL、Secure CRT等软件登录。若要以图形方式登录linux集群,可以使用vnc方式、ssh穿梭方式、XManager等专门软件。推荐使用ssh穿梭方式登录,这样既安全也比较经济。
二十三、使用putty从windows登录linux时有些文件总是显示乱码,请问如何解决?
这是因为linux端字符设置的问题,一般都是因为linux端使用了中文语言环境造成。
解决办法有两个:
1、使linux端采用英文语言环境;
2、在putty中设置字符集为UTF-8。
二十四、当使用USB光驱安装linux操作系统的时候有时候会提示要加载什么驱动,系统无法找到光驱,如何解决?
这时候需要在系统安装加载驱动的时候选择一个叫usb storage的驱动加载,系统自然就能识别光驱并正常安装了。
二十五、我的集群上安装了infiniband的HCA卡,但有时候系统启动以后无法利用mpirun提交作业,这是为什么?
Infiniband设备需要一个子网管理器来管理各个HCA卡、交换机、路由器等,担当这个功能的软件在linux中叫opensm。有时候无法运行作业是因为opensm没有正常运行导致infiniband子网没有顺利启动起来。一般infiniband卡后面都有一个或几个指示灯,当指示灯亮时表示连接已经建立,当指示灯闪烁时表示有数据通过卡。可以通过观察简单判断问题情况。
二十六、我有一个程序需要运行很长时间,想利用并行计算技术看能否加速运算,请问要考虑哪些因素?
串行程序要改成并行程序首先要从算法上考虑并行计算的可实现性。大矩阵计算等空间分布式的程序比较容易并行。按照时间迭代而且前后程序段依赖很严重的程序比较难以并行,一般都要做算法上的改进减少程序前后迭代时的相互依赖关系。另外串行程序是否结构化模块化也是并行改版要考虑的重要因素。
二十七、现在有很多并行计算实现模式,请问编写程序时使用哪种模式比较好?
可以使用mpi、openmp、pvm、hpf/hpc等方式编写并行程序,各有各的优缺点,编写程序的难度也不太相同,不过现在mpi和openmp还是比较流行的两种并行编程方式了。mpi编写的程序比较容易移植,但编写难度稍大;openmp编写程序容易,但可移植性不太好。对于利用scilab等软件并行编程的人来说,只能使用pvm这种方式了。另外hpf/hpc也可以在编程中采用,使用起来没有mpi和openmp那么复杂,但可移植性值得考虑。
二十八、搭建集群时选择哪种操作系统比较好?
有各种各样的选择,看个人喜好。比如有的人就非常喜欢利用windows来搭建一个高性能计算集群。(这个不值得推荐,因为其系统的某些不稳定性人所共知。)一般来说首要的还是要强调稳定性,然后强调定制和升级的方便性。像Redhat各个企业版、CentOS、Debian、Suse以及其衍生版都是不错的选择,另外还有一些专门的科研机构比如欧洲核子中心(CERN)自己搭建的SciLinux也比较好。
二十九、我目前科研需要购买并行计算设备,请问主要根据哪些因素来选购?
要考虑的因素比较多,抛开非技术因素,要考虑的问题包括如下几点:
1、我的应用(计算模拟)是否适合并行计算?是单个任务由多台机器共同完成还是大量任务由多台机器执行最后汇总结果?
2、专业研究所需要的其它软件环境是否需要集成在集群中?
3、现有程序是否需要改写和移植?
4、购买工作站、PC集群还是服务器集群?这些都需要根据具体的应用来分析,可咨询相关专业人士。
[ Last edited by wuli8 on 2009-11-28 at 09:35 ]
返回小木虫查看更多
京公网安备 11010802022153号
不错!
★★★★★ 五星级
很好!受益良多!!!
不错,谢谢楼主的分享
hehe 感谢技术帖子 谢谢分享,