? ? ?
? ? ? ? ?2022年2月27日,周日,北京天气晴朗,阳光明媚,到公司加班,整理一下云自动化运维工具已上线运行的功能清单,发现一些功能在开发中存在的一些缺隐,以及完善产品PPT材料的编制。在这个过程中,发现由我们和客户共同创新定义的“专有云上信息系统运行与维护的5个阶段”的分阶段式管理理念,集成进本工具中,指导运维团队日常运行维护工作,在近一年以来,起到了非常好效果。 ? ? ? ? 该分阶段式管理的理念,起源于为了适应阿里专有云平台资源弹性伸缩的特性,自动化实时准确的构建全量云资源台账,在对庞大的云资源对象需运维兼顾,又对不同时期不同对象需要区分轻重运维保障的需求下,借鉴信息系统全生命周期管理理念,对运维对象在全生命周期的运行与维护阶段中所处的时期进行再细分,划分出的5个运行与维护阶段。按照发生与转变的先后顺序,划分成部署中、临时上线、试运行、正式上线、待下线5个阶段。 ? ? ? ?在运行与维护过程中,通过对每一个业务系统划分到运行维护5个生命周期所对应的阶段,对各个阶段的对象,在关注度与运维资源投入上区别对待,以用有限的资源,实现保障全量业务系统的稳定高效运行的目标,正所谓将好钢确实用在了刀刃上啊^_^。
? ?对运行与维护的5个阶段定义与保障方法在此简要描述如下: ? ? ? 第1阶段:部署中。业务系统已完成开发,为了上线运行,进入了在云平台中开始分配资源或是数据初始化、应用程序部署调试的工作过程中。此时不会提供给用户使用,所以不开启监控。 ? ? ? ?第2阶段:临时上线。业务系统已完成云上资源的分配,并且已完成数据的初始化、应用程序的部署与调试,业务系统基本可以运行,但是,还未按照云上业务系统部署标准化生产工艺的要求进行检查,系统中有可能存在组件应用方式的不合理、参数配置的不合理、存在多余账户或弱口令、各种不规范等问题,未达到建转运的条件,但是因为某种原因系统要先小规模用起来,并且对性能与稳定性还无要求的情况下,由系统建设项目组现场实施团队自行承担运维责任的一个临时非必需中间阶段。开启监控,云自动化运维工具监控告警发送给系统建设项目组负责人,运维团队协助其解决问题。 ? ? ? ? 第3阶段:试运行。业务系统已完成云上资源的分配,并且已完成数据的初始化、应用程序的部署与调试,业务系统可以正常运行,并且,已经按照按标准化生产工艺进行了检查,但检查并未完全通过,存在一些问题需要整改,此时因为需要向用户提供系统生产使用,按照业务系统建设立项要求进入试运行阶段,并且在一定程度上需要保障业务系统的稳定高效运行,而交由了运维人员来运维,开启监控,同时项目组继续对上线检查发现的问题进行整改,在试运行一段时间(如3个月等)无问题后,才能申请正式上线。 ? ? ? ? 第4阶段:正式上线。业务系统建设单位已完成开发阶段的所有工作任务,且按照标准化生产工艺检查都通过,系统已经部署并经历过试运行未发现异常,项目可以验收,完全交由运维人员运维。开启监控,运维部门承担全部运行保障责任。 ? ? ? ?第5阶段:待下线。业务系统由业务的改变,使用新的业务系统等已不再需要使用当前运行的系统时,进入待下线状态,但因数据还未归档、设备或是组件还未回收仍然在线上运行等原因,自动化台账中当然存在此部分资源信息。因已不需对待下线的组件对象再进行运行维护了,所以关闭监控。 ? ? ? ?至于在云自动化运维工具中是如何通过定义的5个阶段来指导云上业务系统日常运维的,计划再写一篇《自动化手段支撑运行与维护5个阶段的管理落地》文章来描述。敬请期待哦!
? ? ? ? 关注“IT圈黎俊杰”公众号,一起探讨IT技术人生!
?
?
坚持原创发表,如发现有不妥与不正确之处,欢迎指正。IT圈黎俊杰虚心向大家学习!
|