IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 记一次raid故障,导致hbase服务异常 -> 正文阅读

[大数据]记一次raid故障,导致hbase服务异常

问题描述:在收到I/O等待负载大于50%时,我们同等时间收到了业务和研发的通知,目前问题节点io问题对业务有影响。处理步骤如下:

问题描述1:ping正常,ssh登陆在10秒以上,登陆节点明显卡顿

处理方法:紧急停掉HRegionServer服务。

再次检查io情况:发现iowait已经明显比较低,问题似乎已经解决。

 iostat -x 1 10

问题描述2:大概10min之后(粗略时间)iowait突然飙升

问题再次出现,但是可以明显感觉到执行命令没有停HRegionServer服务之前卡。此时还有一个关键的信息,读写很低,但是await非常高,达到几千上万,平常最高也就几十而已。

处理方法:凭借运维经验,猜测硬件肯定有问题。于是联系idc紧急排查硬件问题,在同时,我去停了hdfs和yarn的服务。

问题描述3:联系idc检查硬件,最后发现时raid故障

处理方法:在idc解决好raid故障后,启动服务,一切正常。

?

总结:raid故障总是在业务层先感知到,告警无法提前预判。运维侧收到的是io告警,此时排查问题也需要时间。最后怀疑硬件问题的时候,时间已经过去很久了,无法快速解决问题。也和idc有过沟通,raid故障也是依赖于告警发现的,raid故障基本上滞后了近半个小时。如何能检测出raid卡故障,我们排查的效率也可以快速提升。

最后祝大家新年快了,2021年的最后一天就这样结束了。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-01-01 13:58:47  更:2022-01-01 14:01:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 13:22:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码