云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。
本文将从平台架构出发,详细解说云智慧是如何快速高效地解决日志全生命周期问题。
智能日志平台架构概览
- 分布式可扩展架构组件支持多 源 采集、处理、存储、查询
云智慧日志平台架构的主要特点是能够对接多日志源的日志。此外,云智慧采用的是分布式可扩展组件,当组织需要扩容、运维对象增加时,企业可以快速地去扩展,适应新的变化。 日志采集部分使用的是自研的日志采集器,采集器可以对接日志、数据库、消息队列等。与此同时,云智慧提供了批量化部署和管理采集器的能力。日志处理方面,云智慧使用的是Kafka消息队列和Flink流式处理组件,满足海量数据接收的同时支持横向扩展。底层存储同时支持Elasticsearch和Clickhouse,帮助企业覆盖结构化与非结构化双重处理场景。
目前云智慧的日志采集均是制作成了标准的采集模版,可直接对接数据源,通过配置就能满足日志的接入。
日志数据采集成功后,将进入数据处理环节。云智慧利用可拖拽编排的数据处理组件实现日志数据的标准化。例如,当有来自不同日志源的日志且时间格式不同时,运维人员便可以通过“日期转换”组件将固定格式的日期字段转换为时间戳格式。 在整体数据处理编排中,支持单步流程调试功能。
存储方面上面已经提到过,云智慧的底层存储可以做到同时支持Elasticsearch和Clickhouse双引擎存储经过自有环境的性能测试,在日志搜索功能上ES引擎实现了一倍多的提速。而Clickhouse不仅具备高达30%的数据压缩比,在固定字段分析上也展现了数倍的性能优势。 上述分析结果体现了Elasticsearch和Clickhouse在不同场景的适用范围,也让云智慧的日志产品拥有了不同场景下的最佳实践。
下图为云智慧在某第三方支付平台和某航空信息企业处理能力展示。从下图可的云智慧日志平台在3秒钟就可以支撑3亿条以上的数据查询。 云智慧在某航空信息企业的采集日志节点就有超过10000个,这都依靠云智慧的采集控制平台进行批量的管理。数据的存储量方面,在高压缩比的条件下,云智慧仍可以控制在成本友好的量级。
使用场景介绍
在介绍了日志是如何从采集到存储后,接下来将分享云智慧智能日志平台可以有哪些使用场景。
现在通过云智慧的智能日志平台将不同系统的日志成功纳管后,运维人员可以在智能日志平台中快速便捷的进行全文搜索查询,查询日志时无需逐台机器登录。 平台支持SPL语法查询、联想搜索、划词分析等功能,可以提升整体的查询效率。
- 关联日志查询 —— 串联服务间关联日志,快速定位故障
运维人员在排查故障时经常会因为查看的日志不包含全局信息而无从下手,而云智慧智能日志平台则通过将日志中的关联字段进行串联,可以形成完整的日志上下游信息,给运维人员一个全局直观的展示,帮助运维人员将故障相关的问题日志全部呈现,有助于快速查询和排障。
- 智能日志模式识别 —— 无需人工配置即可自动识别日志异常
当日志规则监控手段单一片面时误报率就会变高,模式识别是云智慧的日志“转化场景”之一。在传统运维中,因需要运维人员做大量手动配置,所以日志管理分析显得非常麻烦。而云智慧的方案无需企业做任何配置即可享受到智能化方案带来的效率提升。
同一类型模式的日志往往具有某类共同的特征,例如相似的日志结构。日志模式识别利用聚类算法将日志文本中相似度高的数据聚合在一起,提取共同的日志模式,无需运维人员配置,便可以自动快速发现异常模式日志。并且可以辅助根因分析,通过配置的聚合关键字生成的“饼状图”、“柱状图”等,帮助企业管理人员了解异常时段的具体情况,从而缩小排障范围。
基于日志的链路拓扑是一种无侵入的日志转化方式,不需要安装探针、日志的链路便可以给运维人员提供全链路追踪排障能力。
- 搭建全局服务监控 —— 节点运行状态一览无余,告别被动监控
如下图所示,运维人员可以详细地看到每一条请求相关的日志组成的调用链,此外,每一个可观测到的节点都会以不同颜色标识出自身的健康度。与此同时,云智慧日志管理平台还支持点击节点下钻,以便运维人员查看节点具体的运行状态。
日志审计主要面向的内容是各种操作日志、流量日志、会话日志、原始报文等,核心难点在于大数据的汇聚、存储(保存6个月)、索引和分析技术。云智慧认为日志审计应该具备数据脱敏、历史日志快速查询且存储成本低等能力。此外,还应按网络安全法要求,数据至少存储6个月,同时能够查询指定时间范围的日志数据以便监管部门调取。 与此同时,云智慧还认为日志审计应该具有对安全事件的预警和分析能力,让企业在对日志实现统管后,还具备安全合规的能力。
优势及价值分析
智能日志异常检测 VS 传统日志异常检测
较比传统日志异常检测,智能日志在人力成本、告警准确率、异常定位方面都具有明显的优势。 基于规则的传统日志异常检测,告警准确率仅在20%左右,而云智慧的智能日志,可以达到70%。
模式识别在日志分析中的价值
- 高性能:作为应用于异常检测场景的算法,模式识别具备非常高的时效性及低耗能的双重优点。在3台16C32G的物理节点上,每天可处理500-1000GB的日志量,每5分钟可处理13000+条日志,内存占用仅0.28g。
- 强鲁棒:对日志中存在的粒度不稳定、重复、缺失、乱序等情况,都可以很好的适应。
- 可解释:算法具备较强可解释性,模式识别的效果以方便自然人理解的形式展示给运维人员,方便持续优化模型效果,算法对于运维人员不再是黑盒。
- 重效果 :简单易用,无需任何人工配置便可完成对日志状态的监控,在定位故障的同时亦为企业提供了更多的排障依据,帮助企业解决实际问题,使智能化对企业不再是一个虚无缥缈的概念。
案例分享
下图为云智慧服务的国内某顶级券商真实案例。为了更好的保障系统稳定性,云智慧将业务系统中包含用户行为的日志进行采集并统一纳管进入日志智能分析平台。下面我们对比正常与异常时段日志的分布趋势图,尝试进行辅助根因定位。
先看正常时段日志的日志分布趋势以及用户登录客户端以及版本号的分布情况(左图所示)。接下来再看异常时段的日志分布趋势图(右图所示),在异常时间段,日志量相较正常时段暴增10倍多,用户登录客户端占比及版本号占比发生了明显变化,安卓占比从68%变成了95%。异常时段7.2.4版本产生了12000+次日志。 依此我们不难推断出该故障极有可能是由于Android客户端的7.2.4版本引起。经排查确认,证实了上述结论。 只要3min,云智慧即可给出问题的根因方向。
案例2:运营商携号转网行为日志辅助根因分析
下图为云智慧服务运营商企业的真实案例,日志为携号转网业务产生的服务器日志。下图可以看到异常产生的时间是在2021年的8月2日15:35,这时候运维人员在系统中直接点击该异常点,就可以看到这个异常点的分析页面。图片右侧可以看到的日志原始信息,显示信息是集团服务器在请求某一IP时发生异常,传统运维中运维人员排障就只能停留在这一步了,但是借助云智慧的智能日志平台,运维人员可以对这些日志进行聚合分析。右下方的环形图可以非常清晰的看到请求10.255.95.104这个IP占比达到99.85%,几乎所有异常请求均是此IP导致。
该场景为调用链的使用。在某银行,云智慧帮助企业建立了从前端到后端的调用链路(通过的是Opentracing协议)。某日APP发放支付满39立减9.9元的优惠券,由于APP出现卡顿、响应慢导致优惠券无法使用而引起大量用户投诉电话。云智慧通过调用链路观察问题出现时间段,上述投诉问题是由于核心系统响应慢出现HTTP500错误。
案例4: 某资管公司基于日志的系统健康度分析
下图为某资管公司案例。该公司系统均来自外部采购,企业运维人员想要统一纳管所有系统的日志。主要包含两方面需求,一方面希望收到告警时,可以快速处理问题,降低运维难度,另一方面希望能够清晰了解系统的健康状况。基于上述需求,云智慧给出了日志+统一告警+监控中心系统墙的方案,对日志中的关键字进行监控告警,通过预先维护的知识库来匹配告警信息的关键字,在发出告警通知时,给出推荐知识(知识推荐为客户定制功能),以便让对系统信息了解不足的值班人员也可以快速解决问题。
写在最后
近年来,在AIOps领域快速发展的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需求在各行业迸发。基于此,云智慧在2021年8月发布了AIOps社区, 旨在树起一面开源旗帜,为各行业客户、用户、研究者和开发者们构建活跃的用户及开发者社区,共同贡献及解决行业难题、促进该领域技术发展。
社区先后 开源 了数据可视化编排平台-FlyFish、运维管理平台 OMP 、云服务管理平台-摩尔平台、 Hours 算法等产品。
可视化编排平台-FlyFish:
项目介绍:https://www.cloudwise.ai/flyFish.html
Github地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee地址: https://gitee.com/CloudWise/fly-fish
行业案例:https://www.bilibili.com/video/BV1z44y1n77Y/
部分大屏案例:
|