阿里云文档
2025-08-12
使用eRDMA网络进行分布式训练
弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里云自研的云上弹性RDMA网络。PAI通用计算资源中的部分GPU机型已支持eRDMA能力,您只需使用特定镜像提交基于这些GPU机型的DLC任务,系统将自动在容器内挂载eRDMA网卡,从而加速分布式训练过程。
阿里云文档
2025-04-03
使用灵骏智算资源提交DLC任务时配置高性能网络变量和镜像
在大模型的AI并行计算中,通过降低通信量、计算和通信交叠、提升通信效率来优化计算性能。本文介绍如何使用高性能网络进行配置,以实现上述目标。
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。