客户的一台联想RD830异常关机,在手工起来运行一天后又再次宕机,报以下错误: CRITICAL Event: Internal error during firmware execution. Image shall be updated to other version or hardware board repair is needed (if error is persistent). - Asserted
初步判断机器的主板存在故障,于是使用备件进行了主板的更换。更换后对机器加电,系统在启动过程中停在图形登录界面,无法操作。 初步怀疑是图形界面启动的问题,由于Redhat 5.8启动菜单中没有救援选项,因此使用操作系统光盘进入救援模式。在救援模式下,将文件/etc/inittab的启动级别由5更改为3,然后再重启系统。
启动过程中还是报错误“Out of memory and no killable processes…”。 于是,尝试进入单用户模式(在GRUB菜单中使用e编辑kernel行在最后加上single来启动系统进入单用户模式,或在救援模式下将文件/etc/inittab的启动级别更改为1),结果还是报相同的错误:
再次进入救援模式,注销掉/etc/fstab文件中的swap行,让系统在启动时不添加swap空间。
重启后可以进入单用户模式,于是手工添加swap空间,可是在添加过程中又报错误“Out of memory and no killable processes…”。
重启再次进入单用户模式后,检查内存的使用情况,发现系统中配置了64G内存,但是只剩下316M的空闲内存。 然而top或ps auxw的输出中都找不到任何使用很多内存的进程,而且这是在单用户模式下,没有启动任何用户进程。 查看/proc/meminfo的输出,发现系统Huge Pages保留了64G(32006*2048*1024)的内存,导致系统无可用的内存。 查看/etc/sysctl.conf文件,里面有关于huge pages的设置: vm.nr_hugepages=34568
将该参数设置成SGA/2048k(huge page大小)的值后,重启系统,系统的空闲内存恢复正常。
初步怀疑是客户在主板故障前执行了Oracle的脚本hugepages_settings.sh来设置huge page的值,由于系统没有重启参数没有生效,硬件故障导致系统重启后参数开始生效,导致系统由于可用内存不足无法正常启动。
脚本hugepages_settings.sh在Redhat 6/7中可以正常使用,但是在Redhat 5中由于“ipcs -m”第5列的输出值累加起来为内存的实际容量,导致参数vm.nr_hugepages的值设置为物理内存容量/2048k,将所有系统内存保留为大页面内存,从而出现了内存不足的问题。
Huge Pages是Linux内核版本2.6以后的特性,这个特性让系统可以提供比普通的4K页大小更大的页面选择,在数据库服务器中配置可以提高内存性能。
关于Huge Pages的说明,可以参考文章:Linux使用HugePages 提高数据库的 x86 内存性能。
关于Huge Pages在Oracle数据库中的应用,请参考多米尼哥的文章:使用HugePages优化内存性能。
|