文章 2025-03-19 来自:开发者社区

融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践

在深度学习的背景下,NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性,导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格,2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群,实现对所有可用GPU资源的充分调度,不受制于供应商限制。 本文将深入探讨如何混合AMD/NVIDIA GPU集群以支持PyTorch分....

融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
阿里云文档 2025-02-28

ACK集群高可用架构推荐配置

高可用性(High Availability,HA)旨在优化系统设计,提升服务的可靠性和持续性。容器服务 Kubernetes 版基于Kubernetes架构提供了多种集群高可用保障机制,确保集群控制面、节点与节点池、工作负载、负载均衡等维度的高可用,以构建稳定、安全、可靠的集群和应用架构。

阿里云文档 2025-02-11

通过ASM多主控制面架构实现多集群容灾

服务网格 ASM(Service Mesh)支持多主控制面架构,即由多个服务网格实例共同管理多个Kubernetes集群的架构模式。多主控制面架构相比单个ASM实例添加多个Kubernetes集群,在配置隔离、配置下发延迟等方面有明显优势,更适用于搭建业务对等部署的多集群容灾方案。本文将介绍如何基于两个ACK集群搭建包含两个ASM实例的多主控制面架构。

阿里云文档 2025-01-26

如何基于Kubernetes容器集群设计容灾方案

在进行系统架构设计时,您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁,例如:硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性,您必须为系统设计一套完善的容灾方案。本文以Kubernetes集群(包括容器服务 Kubernetes 版的ACK集群、第三方云厂商集群和本地IDC集群)为基础,结合阿里云的网络、数据库、中间件及...

阿里云文档 2025-01-24

指定Arm架构或多架构工作负载调度至Arm虚拟节点

ACK集群默认会将所有工作负载调度到x86架构的虚拟节点。如果您的集群中既有Arm虚拟节点,又有非Arm虚拟节点(例如x86虚拟节点),为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点,或多架构镜像优先调度到Arm虚拟节点,您可以基于Kubernetes原生调度配置来实现。

阿里云文档 2024-07-02

【产品变更】关于ACK Serverless集群架构自动升级公告

为确保早期的ACK Serverless集群能同步接收到功能更新,自2024年07月22日20:00:00起,ACK将自动对2021年11月01日前创建的ACK Serverless集群进行架构升级。

文章 2022-02-17 来自:开发者社区

一种追求高度融合,包容软硬方案的云主机集群,云OS和云APP的架构全设计

本文关键字:兼容多主机硬件设计,兼容多os,兼容native/cloud程序模型,兼容本地程序/分布式程序。网络操作系统,不是x11,不是远程桌面,不是web nas,不是pouch存储同步。不是远程投屏。 云在人们的观念中就是远端,它承诺将计算发展成水电煤一样的可被直接利用的资源,与内容和我们本地的客户端或终端接入(所以有了云存储,云GPU等各种传统资源的云化,以及一些或细分或复用的云资源,如....

一种追求高度融合,包容软硬方案的云主机集群,云OS和云APP的架构全设计

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

金融级分布式架构

SOFAStack™(Scalable Open Financial Architecture Stack)是一套用于快速构建金融级分布式架构的中间件,也是在金融场景里锤炼出来的最佳实践。

+关注