1. 操作背景
基于ambari的HDP集群其中一spark节点出现内存盘损坏故障。Applicaton是Spark on yarn的模式,共8台Spark节点。 不要怕,大胆的开启host Level 维护模式。
2. 操作方案
Spark问题节点 turn on maintenance mode,内存更换完毕,turn off maintenance mode,启动服务。
3. 操作步骤(ambari-agent开机自启动)
3.1 服务器192.168.11.22 启动维护模式
第一步选中服务器192.168.11.22,点击action 进行第二步turn on maintenance mode。 观察spark数据处理应用,没有受到影响,通知运维人员进行换内存操作。
3.2 运维人员进行换内存操作
运维人员完成换内存操作,启动服务器,通知可以进行下一步操作。换内存过程,观察spark应用会有几分钟的quened状态,之后恢复正常。yarn自动跨过服务器192.168.11.22,进行资源的分配,(节点换内存处于ping不通状态)
3.3 换内存完成
查看ambari-agent 状态,如下图,正常运行中,说明该服务开机自启动。
3.4 关闭维护模式
3.5 启动该主机所有的服务
3.6 重启spark数据处理应用
因为服务器重启后yarn不能短时间内重新平衡资源(观察时间5分钟左右)以便于yarn重新分配资源,重启spark数据处理应用。
4. 监控集群
观察集群状态半小时无异常,spark应用运行正常。
|