| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 系统运维 -> 运维Oncall值班规范 -> 正文阅读 |
|
[系统运维]运维Oncall值班规范 |
一、名词定义第一处理人:在非工作时间出现的所有灾难、严重级别的告警由该人员负第一响应责任 后补处理人:第一处理人在处理SLA内没有作出响应,运维部内其他B岗角色做出响应的人员 值班处理人:运维部内小组(业务运维,安全,运维开发)参与当天oncall值班人员 业务处理人:本轮告警关联的服务开发负责人或测试负责人 告警处理群: 1.业务相关告警要在飞书“微革应用告警处理群”作响应 2.运维层面的告警要在飞书“运维部”群作响应 二、告警处理细则1.当发生告警,第一处理人接收告警处理并分析告警情况从而决定下一处理步骤; 2.如告警属于波动类并自动恢复,需要在告警处理群作通报,并观察10分钟,防止告警重现; 3.如告警持续发生,需要在告警处理群内作通报; 4.如需其他处理人排查,需要通知对应值班处理人排查,如对业务有影响需要通知对应业务处理人; 5.如在告警处理过程中有新的进展,需要及时在告警处理群作通报直到告警恢复或对应处理人接手为止; 6.如第一处理人有特殊情况(上下班途中或紧急事情)无法处理,需要第一时间通知对应值班处理人或运维部其他人员接手处理响应工作,该人员自动成为后补处理人; 7.如第一处理人超过处理SLA没有作出响应时,运维部其他人员作出响应处理的话,该人员自动成为后补处理人; 8.后补处理人是顶替第一处理人对该告警作处理响应工作,应当享受其他补贴或作为绩效加分项? 2.1 升级机制 故障发生后5分钟未能解决,启动升级机制,第一时间拉飞书群,并上报直属领导,请求更多资源并行处理故障,加速处理效能 2.2 故障预案 运维侧 1. 重启 2. 扩容 3. 回退 4. 切流 开发侧 1.降级 2.降流 2.3 内部角色分工 选举故障处理人和协调人
直接处理故障的人
拉故障专项群 组织语音电话会议(故障关联的部门外人员:测试,开发,产品,业务方等) 跟进故障处理进度、处理方案,群内定时同步结果 三、告警处理套路针对不同等级或类型的告警出现时,按照经验总结出简单的套路? 1.业务相关类告警: DB、Redis、MQ 慢查询的检查和处理,系统接口限流和降级;redis临时出口带宽升级,紧急情况联系阿里后台临时放开带宽 2.运维层面告警: ECS、POD、SLB、NAT、安全产品 四、人员名单运维部值班名单:值班 各部门人员名单:人员名单信息汇总-V1.0 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 11:54:27- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |