解决方案
SOLUTION智能化监控解决方案
一、方案功能
1.单指标异常检测: 基于机器学习技术对生产环境中的设备日志、系统日志、用户行为日志、业务数据等信息进行分析,动态设置阈值、告警规则,为运维人员提供专业、高效、合理的动态监控管理手段,提升运维管理效率和质量;
2.多维分析,风险趋势预测:通过机器学习的方式从海量数据中提取的特征信息作为切入点,完成预测模型的开发、训练,借助模型实时、客观、准确的捕获故障和安全事件发生前的征兆,变被动运维为主动运维;
3.智能容量规划:通过业务场景、系统容量、交易量等信息要素,利用机器学习技术构建智能容量分析模型,实现系统容量预测,保证系统的横向扩展;
4.优化运维管理:通过一系列的先进运维管理技术的建设,实现故障精确定位、风险主动预警、服务快速传达,颠覆传统的运维管理观念,提升运维管理部门的服务质量。
二、方案架构
三、方案优势
1、本方案只需要选择指标监控场景和指标,不需要配置任何阀值,0成本接入,减轻大量人力维护成本。
2、本方案提供防抖动设置,放置单个异常抖动告警,提高告警准确率。
3、系统报警后自动触发热点机器排查,直接呈现排查结果,直接展现故障关联关系及根源。
四、成功案例
中国银河证券股份有限公司利用北京AG旗舰厅AIOps智能化监控方案对其下辖50余类业务进行了智能化监控。通过对业务核心监控对象的应用黄金指标进行综合智能化监控(包含请求量突降检测、请求耗时上升检测、响应率下跌检测、错误率上涨检测等),利用泊松分布、二项分布等算法,自动检测出指标异常点并进行告警,然后与机器指标相关联,直接找出对应问题关联最大的指标进行排查。大大缩短了故障发现时间与故障处置时间。下图为具体案例场景:
异常现象:
当日该业务功能的请求延迟经过分析得到的结果,常态请求延迟围绕在3ms左右波动,系统训练得到该功能的阈值为19.06ms,黑点位置是判断系统发生异常的异常点,异常点对应每天下午开市期间。
每天在开市期间请求延迟逐渐增大,直至下午休市后延迟逐渐恢复正常,最大延迟增大至45ms,相较最低请求延迟增大14倍。
故障影响:
下午临近休市前的交易延迟攀升至最高峰,客户的使用上有一定的影响,并且系统发生了比较大的容量退化,如果请求继续持续或者开市时间增长,系统可能发生雪崩。
故障诊断:
请求延迟随着每日开市时间逐渐增大,配合这个功能的业务语义,结合相关机器指标,最终确认是数据库的索引添加存在问题。