高性能分布式训练的相关内容

阿里云文档 2025-05-26

使用eRDMA网络进行分布式训练

弹性RDMA（Elastic Remote Direct Memory Access，简称eRDMA）是阿里云自研的云上弹性RDMA网络。PAI通用计算资源中的部分GPU机型已支持eRDMA能力，您只需使用特定镜像提交基于这些GPU机型的DLC任务，系统将自动在容器内挂载eRDMA网卡，从而加速分布式训练过程。

阿里云文档 2025-04-01

在分布式训练（DLC）中挂载OSS

在提交DLC训练任务时，您可以通过代码配置或挂载的方式配置OSS、NAS、CPFS或MaxCompute存储，从而方便地在训练过程中直接读写相应存储中的数据。本文为您介绍如何在DLC训练任务中进行OSS、MaxCompute、NAS或CPFS的存储配置。

阿里云文档 2025-02-13

使用DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库，能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况，在不同的GPU云服务器上安装DeepNCCL通信库，以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。

阿里云文档 2024-10-31

AI加速：使用TorchAcc实现Swin Transformer模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型，便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Swin Transformer分布式训练中接入TorchAcc并实现训练加速。

阿里云文档 2024-01-09

AI加速：使用TorchAcc实现Stable Diffusion模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型，便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Stable Diffusion分布式训练中接入TorchAcc并实现训练加速。

文章 2023-08-09 来自：开发者社区

清华发布SmartMoE：一键实现高性能MoE稀疏大模型分布式训练

PACMAN 实验室探索大模型分布式训练系统再出新成果。2023 年 7 月，清华大学计算机系 PACMAN 实验室发布稀疏大模型训练系统 SmartMoE，支持用户一键实现 MoE 模型分布式训练，通过自动搜索复杂并行策略，达到开源 MoE 训练系统领先性能。同时，PACMAN 实验室在国际顶级系统会议 USENIX ATC’23 发表长文，作者包括博士生翟明书、何家傲等，通讯作者为翟季冬教授....

文章 2018-02-27 来自：开发者社区

阿里云弹性AI服务 -- 基于Docker和EGS一键创建高性能Tensorflow分布式训练

一. 概述 Tensorflow是目前使用最为广泛的深度学习框架之一，但是目前搭建分布式多机多卡训练比较困难，而且Tensorflow原生的分布式的性能很差，特别在云计算虚拟化环境下并行的挑战更大。为了解决这个问题，我们创建了一个容器镜像：registry.cn-beijing.aliyuncs.com/ai_beijing/deep_learning:vx.x.x，目前包含了Tensorfl....

共有7条

< 1 >

跳转至： GO

更新时间 2023-08-17 18:18:21

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

分布式训练相关内容

分布式更多训练相关

分布式您可能感兴趣

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS（Enterprise Distributed Application Service）是应用全生命周期管理和监控的一站式PaaS平台，支持部署于 Kubernetes/ECS，无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理，Java支持Spring Cloud、Apache Dubbo近五年所有版本，多语言应用一键开启Service Mesh。

+关注