服务器数据恢复环境: IBM DS系列存储,一个机头,连接4个扩展柜; 50块600GB硬盘组建的2组RAID; 其中一组是由27块600G硬盘组成的RAID5,存放数据是Oracle数据库文件,在存储系统上层一共分了11个卷(10个1TB,1个4TB)。
故障: 那组由27块600G硬盘组成的RAID5由于磁盘故障而崩溃,这组raid5存放的数据是Oracle数据库文件。服务器管理员联系数据恢复中心进行数据恢复。
服务器数据恢复过程: 1、硬件工程师对27块硬盘做了硬件检测,发现2块硬盘出现坏道,SMART的错误冗余级别超过阀值。服务器数据恢复工程师对25块完好的磁盘做全盘镜像,对2块故障磁盘进行硬件修复并做镜像备份。
??
2、故障分析:对这台IBM存储上收集到的日志信息进行分析,搞清楚2块故障硬盘的掉线先后顺序,从而找到数据最新的那块硬盘,用这块硬盘进行接下来的数据恢复。 ? 3、经过研究,数据恢复工程师确定了套解决方案: 方案一:通过IBM DS存储管理软件进行强制上线,在强制上线之前把存储的所有硬盘都进行备份,之后进行强制上线。 方案二:通过对硬盘底层数据分析,进行RAID重组,从底层提取数据,重新加载oracle数据库,调试上层应用。
4、实施第一种解决方案,先在模拟器上进行测试,之后在存储上进行上线操作。 通过IBM DS存储管理软件进行强制上线,强制上线之后raid处于降级状态,这个时候设置好热备盘,让热备盘上线进行数据同步,同步完之后上层的卷直接可以用了,所有数据也都可见了,上层应用也能正常使用。 第一种解决方案节省了很多时间,上层应用也不需要在调试,可以直接启动。 ?
?
?
?
?
数据恢复结果: 由于上层的卷直接可用,数据也都可见了,经过用户亲自验证,数据完整可用。出于安全考虑,还是将卷里的文件都拷贝出来移交给用户。整个恢复过程一共历时5天。
|