| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 记一次raid故障,导致hbase服务异常 -> 正文阅读 |
|
[大数据]记一次raid故障,导致hbase服务异常 |
问题描述:在收到I/O等待负载大于50%时,我们同等时间收到了业务和研发的通知,目前问题节点io问题对业务有影响。处理步骤如下: 问题描述1:ping正常,ssh登陆在10秒以上,登陆节点明显卡顿处理方法:紧急停掉HRegionServer服务。 再次检查io情况:发现iowait已经明显比较低,问题似乎已经解决。
问题描述2:大概10min之后(粗略时间)iowait突然飙升问题再次出现,但是可以明显感觉到执行命令没有停HRegionServer服务之前卡。此时还有一个关键的信息,读写很低,但是await非常高,达到几千上万,平常最高也就几十而已。 处理方法:凭借运维经验,猜测硬件肯定有问题。于是联系idc紧急排查硬件问题,在同时,我去停了hdfs和yarn的服务。 问题描述3:联系idc检查硬件,最后发现时raid故障处理方法:在idc解决好raid故障后,启动服务,一切正常。 ? 总结:raid故障总是在业务层先感知到,告警无法提前预判。运维侧收到的是io告警,此时排查问题也需要时间。最后怀疑硬件问题的时候,时间已经过去很久了,无法快速解决问题。也和idc有过沟通,raid故障也是依赖于告警发现的,raid故障基本上滞后了近半个小时。如何能检测出raid卡故障,我们排查的效率也可以快速提升。 最后祝大家新年快了,2021年的最后一天就这样结束了。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 13:22:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |