原创作者:运维工程师 谢晋
前提概要
某客户有一套Oracle Rac服务器,数据库监听服务出了故障后,DBA未做其他操作的情况下(关库等),直接重启了两台服务器,导致两台服务器无法正常开机进入系统,至此展开了排错旅程。
故障说明
两台服务器开机都出现了如下报错:  从报错上来看,提示基本都是网络有问题,于是我就针对网络进行了排查。
首先我要进入单用户模式来进行排查服务 在该界面按e进入配置  修改ro为rw在UTF8后面空格加single,然后按ctrl+x进入单用户模式  输入root密码然后回车 
- 按报错提示我想到的是NetworkManager服务是不是开启了,是不是他引起的开机失败。
排查NetworkManager是否开机自启
可以看到确实是开机自启  关闭服务后重启系统
 但系统还是之前的报错无法启动
- 继续排查网络问题,会不会是MAC问题导致的系统正常进入,排查后发现MAC地址也是正确的没错误。
- 后来想到服务器开机卡住会不会是挂载目录有问题,于是查看了/etc/fstab目录
 可以看到挂载了u01数据库软件目录和orabak数据库备份路径 注释掉这两个目录,只保留/boot、swap、/  注销后重启服务器就可以正常登录系统了,另一台注释了u01挂载后也正常开机了!开机后手动挂载目录和启动数据库集群!
总结
系统无法开机正常进入系统时可以先排查挂载目录,可以先取消其他挂载只保留系统挂载盘,以防止其他挂载目录的干扰,导致问题排查走弯路!
|