DBA警示录:Messages信息应当认真检查

开发者在线 Builder.com.cn 更新时间:2008-08-28作者:盖国强 来源:

  前几天出差兰州,在客户现场检查数据库的运行状况,首先查看了一下Linux系统的Message信息,结果就发现了错误提示,提示信息大致如下:

  attempt to access beyond end of device

  而且这个错误已经连续出现了很久,这类错误一般意味着硬件存在问题,导致了逻辑读写错误,最终可能会导致数据损失。

  发现这个问题很简单,通过dmesg命令查看输出,或者查看/var/log/messages*文件就可以发现可能存在的问题。

  可是往往很多用户忽视了系统状况的检查。

  当时这个系统第二天出现严重故障,存储Down机,数据库损失了数据文件,业务遭受了影响。

  这个案例给我们的教训是:系统状态应当认真检查,任何小处都不能忽视

  今早以前公司的一个系统出现了点问题,message信息中同样记录了故障原因:

  socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE

  scsi: [ID 243001 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):

  Offline Timeout

  scsi: [ID 243001 kern.info] /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):

  target 0x1 al_pa 0xe8 lun 0 offlined

  scsi: [ID 107833 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0/ssd@w50020f2300007f86,0 (ssd0):

  ssdrestart transport failed (fffffffe)

  socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.6010] socal1: port 1: Fibre Channel Loop is ONLINE

  socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE

  socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.6010] socal1: port 1: Fibre Channel Loop is ONLINE

  错误提示显示光纤通道出现问题,这一问题在数据库的体现就是数据库实例Crash掉了:

  Wed Aug 27 04:21:29 2008

  KCF: write/open error block=0xe13b nline=1

  file=68 /u02/oracle8/oradata/hysms02/SMS_STATUS2.dbf

  error=27072 txt: 'SVR4 Error: 5: I/O error

  Additional information: 57659'

  Wed Aug 27 04:21:29 2008

  Instance terminated by LGWR, pid = 352

  系统的message信息是辅助我们进行数据库诊断的一个重要手段,当然防患功能是更为重要的,防患永远胜于救灾

用户评论

  • 用户名
  • 评论内容