标准化管理技术支持服务工作,主要内容内容抽象概况以下三方面:日常工作梳理、标准化和流程化制定、日常工作标准化和流程化执行。
1 运维工作梳理
运维工作相对比较繁杂,急需对运维对象数字规范化。大致分为数据中心(DC)运维、IT 资源运维、服务运维、事件管理四个部分。 ● 数据中心运维工作的梳理 数据中心运维自建IDC机房的物理设备(服务器等),所以日常运维工作中有关于数据中心相关的工作,例如数据中心的设计和建设工作,数据中心日常巡检,数据中心权限管理、备件梳理管理、设备上下架等管理等。架设在机房中的云平台管理工作。 ● IT 资源运维工作的梳理 IT 资源运维主要是指计算、存储、网络和安全四大基础资源的运维工作。IT 资源运维工作涉及日常运维工作基础资源,是整个运维工作的重点,基础资源的保障好坏,关系着上层应用服务的健康运行情况。
计算资源包括物理服务器的管理,如开关机、配置修改、资源增加等; 存储资源管理一般包括自建分部署存储、商业存储、NAS等相关存储资源的账户权限管理、容量管理、监控等; 网络资源运维管理工作主要包括网络权限管理、设备配置变更等等; 安全资源运维管理主要日常与安全相关的规章制度和策略以及安全设备具体操作等。 ● 工作系统运维工作梳理? 系统运维的日常大多是与服务运维相关。运维服务部署(如:Nginx 部署、JDK、Tomcat 的部署等)、服务的配置变更和服务发布、服务变更等。服务运维设计的标准和规范指导日常服务运维工作的进行,并且为自动化运维做铺垫,这要求在日常运维工作中,对于重复的手工运维工作尽量通过脚本或是其他变成语言实现自动化。 ● 事件管理针对日常运维工作中出现的运维事件进行处理指导和提出管理方案。主要包括对事件进行分类、事件处理流程、如何汇报事件以及事件的总结等。
通过对日常运维工作所涉及的内容(对象)进行分类整理,并且加工提炼最后形成运维的标准和规范,将一些流程化的工作进行固化,并且逐步实现运维自动化,提高运维效率
2 运维标准化流程化文档?
结合公司实际运营情况,对运维标准护额和流程化文档的提炼。在制定运维标准流程之前,必须制定好文档编写得规范和标准。整体的规范流程文档的风格统一整齐。描述简洁,设计流程相关要图文并茂,重要流程图的流程说明和关键点备注。
● 数据中心运维流程标准化 1 数据中心巡检流程 2 数据中心备件申请流程 3 数据中心故障处理流程 4 数据中心管理规范 ?? ?数据中心设计标准规范 国家标准、国际标准、行业标准等。 ● IT 资源运维流程标准化 IT 资源运维主要对涵盖系统基础设施的计算、存储、网络、安全四个基础部分的运维其中着重偏向于硬件以及硬件配置相关运维工作。这其中涉及的规范和流程如下: 1 物理服务器相关: 1) 物理服务器申请流程(申请、评估、审核、采购、验收) 2) 物理服务器上架流程:布线、上架、安装操作系统 3) 操作系统安装标准规范 4) 物理服务器配置变更流程:申请、评估、审核、变更 5) 物理服务器到期处理流程:自动触发申请、评估、迁移、验证、进入报废流程 6) 物理服务器报废流程:申请、验证、审核、利旧建议、关机、进入下架流程 7) 物理服务器下架流程:关机后 15 日、断电、下架、利旧、销毁 2 虚拟机/容器相关流程标准化: 1) 虚拟机/容器化申请流程规范。 2) 虚拟机/容器安装标准规范 3) 虚拟机/容器配置变更流程规范 4) 虚拟机/容器删除流程规范 3 网络资源流程标准化 1) 网络设备申请流程 2) 网络设备上架流程 3) 网络配置变更流程 4) 网络设备报废流程 5) 网络设备下架流程 4 安全资源 1) 安全设备申请流程 2) 安全设备上架流程 3) 安全设备配置变更流程:配置升级、扩容、端口开通、访问控制、策略修改 4) 安全设备报废流程 5) 安全设备下架流程 5 存储资源 1) 存储设备申请流程 2) 存储设备上架流程 3) 存储设备配置变更流程:包括硬盘添加、更换,容量扩容 4) 存储设备报废流程 5) 存储设备下架流程
● 服务运维标准化和流程化 对于日常运维服务相关的标准化和流程化主要是标准化部署、配置以及流程化的处理如发布、变更等,这其中还包括数据库的数据处理流程、生产账号管理流程、以及备份和监控的标准规范等。 1 基础软件或中间间管理流程标准化 安装、优化配置、安全加固、备份、监控、日志备份、包括高可用和负载均衡集群部署等 1) Nginx 安装标准规范 2) Haproxy 安装标准规范 3) Apache 安装标准规范 4) JDK 安装标准规范 5) Tomcat 安装标准规范 6) Weblogic 安装标准规范 7) MQ 安全标准规范:ActiveMQ、RabbitMQ? 8) Redis 安装标准规范 9) MongoDB 安装标准规范 10) 大数据平台安装部署标准规范:大数据生态圈组件安装标准规范 11) Oracle 安装标准规范:单机、DG、RAC、OGG 同步
2 生产应用系统相关流程标准化 1) 发布流程、变更流程、删除流程 2) 测试账号/管理账号管理流程 3) 数据手工处理流程 4) 监控管理规范 5) 信息风险源管理流程 6) 备份管理规范:备份对象、备份时间、备份频次、备份耗时、备份验证、备份监控
● 数据资产管理流程标准化 对数据资产进行规划、控制和使用的各种活动。包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序;做好控制、保护、交付和提高数据资产的价值。 1 元数据管理流程 2 主数据管理流程 3 数据质量管理流程; 4 数据安全管理流程; 5 数据共享管理流程
● 事件管理流程标准化
针对日常运维过程中出现的事件进行规范化和流程化管理与指导,使工程师在处理运维事件的时候有章可循,以达到事件通知上通下达、规范化处理、快速高效处理的目的,事件处置形成标准化的专家知识库。 1) 事件管理运维事件分类规范 2) 运维事件处理流程:故障处理、安全事件处理 3) 运维事件通报流程 4) 运维事件处理规范 5) 重保运维管理规范
3 运维对象数字化和流程标准化执行落地?
通过运维工作梳理,进行运维标准化、流程化文档的编写之后,接下来就是最重要的落地执行。有规范流程标准,众多运维工程师日常运维工作中摒弃某些个性工作习惯、求同存异遵循执行规范。 ● 普及流程标准化意义,强化标准化文化意识。 首先是对工程师以及流程干系人进行标准化和流程化意义的普及,流程标准化落地初始阶段,工程师带来各种不方便和诸多不适应,让大家了解知道进行标准化和流程化的意义,标准和流程得进行运维工作,可以大大减少人为失误,同时让大家在同一标准下工作,减少交流成本,相互之间的配合也会更加紧密。团队协作流程化处理问题最大程度的减少相互之间的影响。最后,标准化和流程化是最运维自动化最基础准备。 ● 加快运维自动化的建立。 尽快将固化的标准和流程进行自动化的编码开发,大大减少人为操作,提高运维效率,这样运维工程师的日常工作因为大大减少人工操作,较以往会更加轻松。 ● 优化标准化和流程化。标准化和流程化的制定是基于实际的日常运维工作的,在实际执行过程中,应该根据实际情况,进行不断的优化调整,以达到最优。 ● 所有运维操作完全按照运维的标准和流程进行? ?? ?1 增量运维工作遵照标准化流程进行实施。 ?? ?2 已存在的系统部署方式进行迁移至标准化的操作?? ? 对于迁移,也是标准化执行落地的痛点。初步考虑一般性思路:首先保留已存在非标准化系统,同时搭建标准化环境,进行已存在系统的部署并进行测试,测试无误后,与已存在非标准化系统并行运行,同时提供对外服务一段时间后,在评估,最后将已存在非标准化系统进行下线,以达到系统平滑得由非标准化迁移至标准化的目的。 ?? ?
?
|