阿里云文档 2025-03-31

多集群舰队组件统一管理

ACK仅支持单集群的组件管理,您需手动维护各个集群中组件的版本,维护成本较高,也增加了由于组件升级引发的稳定性问题。ACK One舰队为集群运维人员提供了统一且自动化的组件管理能力,可以定义包含多个组件及其版本的基线,并将其部署到多个集群,同时支持组件配置、部署批次和回滚等功能,从而提升系统的稳定性。本文将介绍如何在多集群场景中统一安装和管理组件。

阿里云文档 2025-03-28

AI Profiling示例参考

本文以Pytorch训练场景和vLLM推理场景为例,对在ACK集群中运行的GPU容器的AI Profiling检测结果进行分析,重点阐述如何通过在线性能检测结果的可视化页面,分析Python进程、CPU调用、系统调用、CUDA库和CUDA核函数的执行过程,定位性能瓶颈,找到性能调优方向,从而提升GPU利用率和应用效率。

阿里云文档 2025-03-25

为ACK 集群数据面(Kubelet)组件启用链路追踪

kubelet的链路追踪可以记录kubelet在节点上执行的关键操作轨迹,例如 Pod 生命周期管理、API 调用等,以便定位系统性能瓶颈并排查集群问题。启用后,kubelet的链路信息将自动上报至可观测链路 OpenTelemetry 版,提供可视化的链路明细、实时拓扑等监控数据。

阿里云文档 2025-03-25

为ACK 集群控制面(APISever)组件启用链路追踪

为了快速定位性能瓶颈、排查集群问题,建议为集群API Server启用链路追踪,记录其请求交互细节。启用后,API Server的链路信息将自动上报至可观测链路 OpenTelemetry 版,提供可视化的链路明细、实时拓扑等监控数据。

阿里云文档 2025-03-25

为ACK 集群数据面(Kubelet)组件启用链路追踪

kubelet的链路追踪可以记录kubelet在节点上执行的关键操作轨迹,例如 Pod 生命周期管理、API 调用等,以便定位系统性能瓶颈并排查集群问题。启用后,kubelet的链路信息将自动上报至可观测链路 OpenTelemetry 版,提供可视化的链路明细、实时拓扑等监控数据。

问答 2024-08-27 来自:开发者社区

Chaosblade k8s集群场景下容器内存负载实验,报错是什么原因?

k8s集群场景下容器内存负载实验,报cgroups load failed是什么原因 chaosblade-operator报的错误

问答 2024-08-14 来自:开发者社区

代码master分支修改,通过云效打包,发布到ack serverless集群报错,如何解决?

代码master分支修改,通过云效打包,发布到ack serverless集群报错,如何解决? 但是我自己本地打包镜像,发布到ackserver less就可以。

问答 2024-07-17 来自:开发者社区

ACK集群的某个节点的Pod无法挂载PVC提示报错reason: Cnfs default-cnfs-nas-xxxx-xxxxxxxxxxxx is unhealthy status

ACK集群的某个节点的Pod无法挂载PVC提示报错reason: Cnfs default-cnfs-nas-xxxx-xxxxxxxxxxxx is unhealthy status, can'tconnect to domain xxxxxxxxxx-xxxxxxxxxxx.cn-hongkong.nas...

问答 2024-07-17 来自:开发者社区

ACK集群提示The node was low on resource: ephemeral-storage. Container engine was using报错

ACK集群提示The node was low on resource: ephemeral-storage. Container engine was using报错。

问答 2024-06-15 来自:开发者社区

ACK集群中的pod报错secret "xxx" not found

ACK集群中的pod报错secret "xxx" not found

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

容器服务

国内唯一 Forrester 公共云容器平台领导者象限。

+关注
相关镜像