阿里云文档 2025-04-11

跨地域调度ACS Pod

在AI大模型训练和推理场景中,单地域GPU资源存在型号覆盖有限、库存波动等问题,易导致算力不足或任务等待。阿里云ACK One注册集群通过ACK Virtual Node提供的虚拟节点技术,将多地域的Serverless算力资源无缝接入Kubernetes集群,实现跨地域GPU资源的动态调度与统一管理。该方案突破地域资源瓶颈,支持按需自动获取目标地域的异构算力,解决GPU型号适配与库存限制问题,显...

阿里云文档 2025-04-10

如何使用ImageCache加速创建Pod

阿里云以ImageCache CRD的方式将ECI的镜像缓存(即ImageCache)功能提供给Kubernetes用户,以便在Kubernetes集群中也可以使用该功能来加速创建ECI Pod。本文介绍ImageCache的功能,以及如何创建和使用ImageCache。

阿里云文档 2025-04-01

ACS Pod增加EphemeralStorage

ACS Pod默认提供30 GiB的免费的临时存储空间(EphemeralStorage),如果该存储空间大小无法满足您的需求,您可以自定义增加临时存储空间大小。

阿里云文档 2025-03-24

指定规格创建ECI Pod

本文列举了ECI支持的算力规格,并汇总了创建ECI Pod的多种方式,您可以根据业务需求选择合适的创建方式,在创建出满足规格需求的ECI Pod的同时,保证创建成功率并降低资源使用成本。

阿里云文档 2025-03-14

如何使用ImageCache加速创建Pod

阿里云以ImageCache CRD的方式将ECI的镜像缓存(即ImageCache)功能提供给Kubernetes用户,以便在Kubernetes集群中也可以使用该功能来加速创建ECI Pod。本文介绍ImageCache的功能,以及如何创建和使用ImageCache。

文章 2024-08-24 来自:开发者社区

在K8S中,节点故障pod驱逐pod过程,时间怎么定义的?

在Kubernetes(K8S)中,节点故障导致Pod驱逐的过程是一个涉及多个组件和参数协同工作的复杂流程。这个过程的时间定义主要通过一系列参数来配置和确定。以下是该过程的详细解释以及时间定义的说明: 一、节点故障检测 节点控制器(Node Controller)检查间隔: node-monitor-period:这是节点控制器检查每个节...

文章 2023-05-31 来自:开发者社区

细说Kubernetes Pod的驱逐

原文:https://sysdig.com/blog/kubernetes-pod-evicted/作者:JAVIER MARTÍNEZKubernetes Pods被驱逐是什么意思?它们被终止了,通常是由于没有足够的资源,但是为什么会发生这种情况呢?驱逐是一个过程,分配给一个节点的Pod被要求终止。Kubernetes中最常见的情况之一是抢占,为了在资源有限的节点上安排一个新的Pod,通常需要....

细说Kubernetes Pod的驱逐
问答 2022-08-30 来自:开发者社区

发现个问题,我这边环境跑了几个礼拜,其中有个节点磁盘利用率过80%后,k8s把上面的pod驱逐了,之

发现个问题,我这边环境跑了几个礼拜,其中有个节点磁盘利用率过80%后,k8s把上面的pod驱逐了,之后我清理掉一些日志后,删除evicted的pod让operator重新调度之后,所有节点都起来并显示running了,但是show node还是只有一个节点,然后登录到有问题的那个节点,发现这个dn没组成集群,,这个dn是不是还不能开始工作,如果是这样的话,dn的readiness probe是不....

问答 2022-04-03 来自:开发者社区

Kubernetes中节点存储的Pod驱逐触发条件是什么?

Kubernetes中节点存储的Pod驱逐触发条件是什么?

问答 2022-04-03 来自:开发者社区

Kubernetes Pod 驱逐是什么意思?

Kubernetes Pod 驱逐是什么意思?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注