« 上一篇下一篇 »

服务器的硬件维护要注意事项有哪些?如何更好的让服务器稳定运行

  服务器是一台需要不间断运行的机器,服务器硬件维护是保证服务器正常运行的重要手段,设备只要运转,难免产生故障,你应该在时间定位故障、从而尽快处理故障、解决故障影响时间。同时明确:哪些服务器维护是IDC该做。虽然服务器托管用户需要处理大部分的维护工作,但也不是说服务商的维护任务就什么都没有。服务商需要对服务器的一些辅助设备或者网络资源进行维护!

  服务器维护是比较头疼的问题,但相对来说对于日常的维护,服务器还是都是比较正常的,但我们还是要检查机器可能出现的问题,起码出现问题时候,我们不会束手无策,能有解决问题的方案,以更好的维护服务器的工作,下面小编介绍下服务器常见的问题


一般的服务器维护主要包括服务器硬件维护与服务器软件维护。服务器例行检查,查看cpu,内存,存储占用情况,并评估增长率与临界值时间,查看系统硬件是否存在告警,查看message看是否有OS级别告警!

 

硬件维护容易遇到的雷点

1.备份工作不当:

  某公司办公室存储了很多重要文件和数据的服务器出了故障。因为服务器上没有信息可以被存取,办公室的各项运转基本停止。网络管理员立即拿出一个备份文档的带子,试图修复。当她发现这个带子是空的时,心沉了下去。她检查了另外的备份带子,居然全是空的!她检查了办公室的日志,发现同僚们两年来每天都更换备份带,只是带子被放进从来没有安装备份软件的服务器里,没有人知道备份带有问题,因为从来没有人检查过,而只是两年内坚持每天更换空白备份带。这件事使医院损失惨重。其实只要任何一个数据库管理员做一个简单的备份检查就可以避免这种重大问题的发生了。事实上,他们正在这样做,每天都是。
 2.随意处理阵列故障

  如果阵列里的硬盘出现故障,不能及时的监控,而是等彻底系统宕机了才知道,管理员不能熟练的使用一些常用的硬件监测工具,比如RAID5是允许坏1个盘,很多人因为系统正常运行就万事大吉,当第二块硬盘坏了进不去系统才发现已经有2个硬盘坏掉了,这样再去做恢复数据就很难了,必须找数据恢复公司了,而且不对机器规划阵列做记录,如做的RAID几的标注,不对硬盘的的排列顺序进行编号,这样出线问题,手忙脚乱导致数据恢复困难甚至丢失。

  3.没有签订授权合同

  某公司去年花费大量现金采购了服务器。该系统有RAID 5的冗余保护,双电源和24×7支持,而一年之后,驱动器坏掉了。保证24×7支持的工作人员来了,他打电话给硬件厂商,厂商问他合约号码是什么,而该办公室之前并没有签订授权合同。“没关系,”厂商说,“他们离授权到期还有两年时间,我将在五六天内给你更换驱动器。”

  但是,厂商的宽容是远远不够的,最好保证你有全套24×7支持,去一个办公用品商店买标签,在每个标签上写上授权合同号码和技术支持的电话号码,然后把它们贴在每一台机器上。

  4.存储容量计划不周

  某公司五年前买服务器的时候,该服务器可以支持六个300G RAID Array 5驱动器。为了要节省钱,公司坚持只买四个146G驱动器。网络管理员说,不久他们会需要较多的空间,公司最终妥协了,多买了两个驱动器,如此了结了此事。在三年之后他们出现了严重的空间不足问题,他们甚至不得不删除只有50K byte的小文件。他们急需扩大容量,而当时146G的驱动器已经买不到了,更大的服务器又支持不了。而能解决该问题的一个新的额外子系统将需要比原服务器更多的钱。这样,他们只得比计划的提前两年更换服务器。因此,做好存储容量计划,会使你节约开支,甚至可能大大延长你的系统寿命。

  5.劣质的电缆线路工程

  一个公司的网络经常出问题,为此他们专门对配线箱做了检查,检查中发现,许多RJ-11和RJ-12的插头插进了RJ-45插座之内。而且在每一个插座里都插入了一根牙签,这样布的电缆线路难怪会出问题。许多网络问题都归咎于不合适的'电缆线路连接,所以,精明的管理者最好让有经营许可证的、有担保的并且信得过的电缆线路承包商来架接电缆线路。

  6.错误操作是最大的隐患
  下午办公室的电源突然断掉了,紧张的办公室经理认为这会损害他们的两个服务器,因此他采取了快速行动――他走过去把服务器都关掉了。回家时,他还为他的快速行动而自豪。可第二天早晨,当他回到办公室打开两个服务器时,发现里面内容什么都没有了。事实上,昨天当他按下服务器开关时,服务器正在进行关键文件的复杂更新工作,他中止一台服务器的工作时影响了另一台服务器关键性数据库的存盘。结果修复网络工作花了两天时间。</

.不能忽视硬件故障诊断告警

  大多数管理员认为机器正常功过就完事大吉了,要定期到机房巡视机器的状态,如果前面板的故障灯异常就要引起重视,要第一时间处理故障硬件,该换配件的及时更换,别等机器起不来了才去做,早发现早解决,品牌的服务器都有故障代码,一定要准备好故障代码手册,以便快速查询和精确定位故障配件,如果有远程管理卡的服务器都要设置好远程管理监控,更加高效管理。


服务器硬件维护注意事项


一、服务器硬件维护注意事项


硬件维护跟软件具有同等重要的地位,硬件方面的维护不外乎就是一些增加和卸载设备、更换设备以及设备除尘、防火防潮等工作。


1、定期除尘


尘土是服务器最大的杀手,因此需要定期给服务器除尘。对于服务器来说,灰尘是十分致命的,会严重影响服务器的使用寿命,除尘方法与普通PC除尘方法相同,尤其要注意的是电源的除尘。


2、储存设备的扩充


当资源不断扩展的时候,服务器就需要更多的内存和硬盘容量来储存这些资源。我们都应该知道,增加内存是再常见不过的,当服务器安装的应用程序增多时,网络资源提升时,网络应用多元化时,都需要对服务器进行扩充以适应不断发展的需要。这当中就有问题了:首先,加内存时应该选择与原内存同厂商、同型号的内存条为宜!笔者就遇到过,一次由于手头没有专用的ECC内存就加了根DDR的,结果导致系统出错无法重启!


3、定期更换和卸载设备


卸载和更换设备时的问题不大,需要注意的是有许多品牌服务器机箱的设计比较特殊,需要特殊的工具或机关才能打开,在卸机箱盖的时候,需要仔细看说明书,不要强行拆卸。另外,必须在完全断电、服务器接地良好的情况下进行,即使是支持热插拔的设备也是如此,以防止静电对设备造成损坏。


服务器硬件问题


二、服务器性能日常检查具体检查内容:


1、服务器电源状态检查;


2、服务器风扇状态检查;


3、服务器硬盘健康状态检查;


4、服务器系统日志检查。

 

但有时候服务器的重启工作应当交由服务商进行更合适。毕竟现场技术比用户处理更方便。最后对于有的用户购买增值服务的用户应当在合同中对这些项目进行注明,以明确各方的权利义务

 

综上所述,服务器硬件维护并不复杂,完全可以说服务器硬件没啥可维护的,都是spot对应,也就是出问题了直接热更换:风扇硬盘电源啥的,主板内存什么的坏了还是要停机的。软件肯定是要维护的,而且绝对是越频繁越好,大多数服务器挂了都是因为运维懒。唯一的问题就是维护就是烧钱。