阿里云文档 2025-06-10

在GPU-HPN节点上使用GPU共享调度

ACS支持在GPU-HPN节点上通过GPU共享调度实现将多个Pod运行在同一个GPU设备上。在GPU独占调度场景,Pod只会按整卡粒度申请资源。当某个Pod没有必要使用整卡的资源时,会造成资源浪费。通过GPU共享调度,您可以为Pod申请更加细粒度的异构资源算力。同时,GPU共享调度支持为Pod配置灵活的requests和limits约束,可以满足多种应用场景的资源隔离和共享需求。

阿里云文档 2025-04-11

ACS GPU-HPN节点的监控指标

本文介绍ACS集群中提供的GPU-HPN节点级别的Prometheus指标。

阿里云文档 2025-03-28

添加GPU节点

ACK Edge集群的边缘节点池支持管理线下GPU资源。本文介绍如何在ACK Edge集群中的边缘节点池中添加GPU节点。

阿里云文档 2025-03-27

ACS GPU-HPN节点故障处理

AI训练任务的运行过程中,当GPU节点发生故障时,会导致任务卡住甚至异常终止,影响任务的运行效率。ACS集群提供了对GPU-HPN节点的故障监控能力,当节点出现异常时,ACS会标记节点,并通过Kubernetes事件(Event)、状态(Condition)等方式上报。本文介绍GPU-HPN节点的故障监控项、数据获取方式以及修复流程。

文章 2025-02-19 来自:开发者社区

边缘GPU节点的可观测原理和最佳实践

【阅读原文】戳:边缘GPU节点的可观测原理和最佳实践 ACK Edge是针对数据中心、边缘场景推出的云边一体化协同托管方案。ACK Edge可以纳管数据中心和边缘侧的GPU节点,统一管理多地域、多环境的异构算力。阿里云Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheu...

边缘GPU节点的可观测原理和最佳实践
阿里云文档 2025-01-13

使用集群巡检和诊断的节点诊断功能自助排查GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点问题,并提供nvidia-smi和XID状态码排查列表。

问答 2024-01-04 来自:开发者社区

云原生 AI 套件中,在使用GPU资源时,扩容添加的GPU节点自动安装的CUDA有缺少,这怎么解决?

云原生 AI 套件中,在使用GPU资源时,扩容添加的GPU节点自动安装的CUDA,/usr/local/cuda/lib64下缺少libnvcuvid.so.1,这个怎么解决?

文章 2023-10-14 来自:开发者社区

2024 Quai Network全节点+GPU节点搭建手把手教程

融资千万的明星项目QuaiNetwork可能大家都知道,这项目融资了两轮,加起来上千万美金,算是这两年为数不多的明牌空投的好项目。这两天旷工群里非常热闹就是因为QuaiNetwork测试网铁器时代开挖了,本次一共发放1200万个代币,其中全节点矿工分配了800万个,不过因为搭建全节点稍微复杂了些,坑很多,导致把一部分矿工挡在了门槛之外。本人经过2天的摸索、试错,埋伏官方开发者discord群4天....

2024 Quai Network全节点+GPU节点搭建手把手教程
文章 2023-07-13 来自:开发者社区

基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点

在前一篇文章《基于ACK One注册集群轻松实现云上云下K8s集群统一管理》中,我们注重介绍了注册集群的应用场景,架构实现,安全加固,以及在他云K8s集群和IDC自建K8s集群中使用阿里云容器服务ACK的强大可观测性能力,实现云上云下K8s集群的统一运维管理。本文会重点介绍ACK One注册集群的另一个重要使用场景--云上弹性。 概述 ACK One注册集群的云上弹....

基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点
文章 2023-07-07 来自:开发者社区

基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点

在前一篇文章《基于ACK One注册集群轻松实现云上云下K8s集群统一管理》中,我们注重介绍了注册集群的应用场景,架构实现,安全加固,以及在他云K8s集群和IDC自建K8s集群中使用阿里云容器服务ACK的强大可观测性能力,实现云上云下K8s集群的统一运维管理。本文会重点介绍ACK One注册集群的另一个重要使用场景--云上弹性。概述ACK One注册集群的云上弹性能力针对的场景:业务快速增长:在....

基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注