蚂蚁智能监控
AntMonitor 简介
AntMonitor是蚂蚁集团的智能监控系统,通过构建面向监控可观测数据的实时、稳定的数据链路,为技术风险大脑及体系提供实时、稳定、可靠、丰富的可观测数据与告警服务。
系统架构
系统架构上,AntMonitor可以分为产品、告警、计算和存储等四个子系统,各个子系统可以独立提供服务,又相互协调配合,承担起了蚂蚁技术风险的数据底盘角色。
产品系统
产品系统直接为用户提供各项可视化服务,包括monitormeta和monitorprod两个组件。
计算系统
计算系统提供一体化的数据采集、清洗、聚合与数据生命周期管理服务。
告警系统
告警系统基于用户配置的告警规则对计算产出的指标数据进行巡检,产出告警事件并推送给订阅者。
存储系统
存储系统为AntMonitor提供时序数据的读写服务。
稳定性建设
监控系统在整个蚂蚁的体系架构内是一个特殊的角色,它在承载所有业务系统的可观测与告警能力的同时,还为容量、自愈、故障应急等技术风险其他子域提供着数据服务。
稳定性架构
稳定性架构是建设稳定性中最重要的一环,一个经过缜密设计的稳定性架构,可以使我们后期尽可能优雅从容地处理各类稳定性问题,而不是疲于奔命地打地鼠。
容灾架构
前文简要提及了架构去单点问题的解决思路,这足以覆盖日常可能发生的节点宕机、网络抖动等小规模故障场景。
城市级容灾
对于高保的业务域租户,AntMonitor提供城市级的容灾能力。
架构单元化
架构单元化,可以理解为AntMonitor内部的集群管理。
运行时保障
设计并实现良好的稳定性架构,就像种下了一棵基因优良、枝干笔挺的树苗,但要让它长得枝繁叶茂,还需要平时地照看、灌溉与修剪,这就是日常的运行时稳定性保障。
自监控
提起监控,总有不少看似悖论的话题被提起,例如监控系统如何监控自己?
数字化运营
数字化运营,顾名思义,就是针对监控本身,做好全方位的数字化衡量工作。
配置管控
「沙盒拦截」
经验告诉我们,变更往往最容易给系统引入稳定性问题。
总结
系统的稳定性建设是一项长期投入的工作和不断精进的过程。
多重随机标签