阿里云文档 2024-11-19

PAI-AI训练任务支持通过云监控或ARMS进行监控与报警

分布式训练(DLC)任务支持查看和监控资源状况,提供详细的监控指标,帮助您掌握资源负载情况。通过监控报警功能,您可以实时监控DLC任务的资源水位,并配置报警规则和通知。如果资源水位出现波动,例如GPU使用率超过设定阈值,会发送报警通知。本文为您介绍如何通过云监控和ARMS查看监控数据、配置监控报警通...

阿里云文档 2024-11-19

PAI资源配额(Quota)支持通过云监控或ARMS进行监控与报警

资源配额(Quota)支持查看和监控资源状况,提供详细的监控指标,帮助您掌握资源负载情况。通过监控报警功能,您可以灵活配置报警规则和通知,来实时监控资源水位。当资源水位出现波动(例如CPU使用率超过阈值)时,则会发送报警通知。本文为您介绍如何通过云监控和ARMS,查看监控数据、配置监控报警通知、订阅监控指标。

阿里云文档 2024-09-19

使用ARMS自定义EAS可观测大盘及报警

应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云云原生可观测产品平台。基于ARMS提供的能力,你可以自定义一套PAI-EAS服务的可观测大盘,以及配置更加灵活的报警规则,帮助您全面详细的监控EAS指标数据。本文将向您介绍如何使用ARMS查看监控指标数据、配置可观测可视化大盘以及自定义监控报警等。

阿里云文档 2024-07-05

调用ALIYUN::ARMS::AlertContact创建报警联系人

ALIYUN::ARMS::AlertContact类型用于创建报警联系人。

阿里云文档 2024-06-20

调用ALIYUN::ARMS::AlertContactGroup创建报警联系人分组

ALIYUN::ARMS::AlertContactGroup类型用于创建报警联系人分组。

问答 2024-06-12 来自:开发者社区

ARMS配置了异常告警但却没报警

ARMS配置了异常告警但却没报警

问答 2024-06-07 来自:开发者社区

ARMS如何对异常过滤降低报警频率

ARMS如何对异常过滤降低报警频率

问答 2024-05-29 来自:开发者社区

在阿里云ARMS实际收到的通知渲染不完整,怎么解决呢?前后两个报警内容以哪个为准?

在阿里云ARMS实际收到的通知渲染不完整,怎么解决呢?前后两个报警内容以哪个为准?

问答 2024-04-22 来自:开发者社区

SchedulerX的报警能对接到arms的报警上吗?

SchedulerX的报警能对接到arms的报警上吗?整个告警体系对接到arms。

问答 2024-03-27 来自:开发者社区

阿里云ARMS和ack里边的prometheus 监控是一套么?报警配置方式不一样?

阿里云ARMS和ack里边的prometheus 监控是一套么?报警配置方式不一样?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云原生可观测

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等