阿里云文档 2025-05-26

使用eRDMA网络进行分布式训练

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里云自研的云上弹性RDMA网络。PAI通用计算资源中的部分GPU机型已支持eRDMA能力,您只需使用特定镜像提交基于这些GPU机型的DLC任务,系统将自动在容器内挂载eRDMA网卡,从而加速分布式训练过程。

阿里云文档 2025-04-01

在分布式训练(DLC)中挂载OSS

在提交DLC训练任务时,您可以通过代码配置或挂载的方式配置OSS、NAS、CPFS或MaxCompute存储,从而方便地在训练过程中直接读写相应存储中的数据。本文为您介绍如何在DLC训练任务中进行OSS、MaxCompute、NAS或CPFS的存储配置。

阿里云文档 2025-02-13

使用DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。

阿里云文档 2024-10-31

AI加速:使用TorchAcc实现Swin Transformer模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型,便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Swin Transformer分布式训练中接入TorchAcc并实现训练加速。

阿里云文档 2024-01-09

AI加速:使用TorchAcc实现Stable Diffusion模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型,便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Stable Diffusion分布式训练中接入TorchAcc并实现训练加速。

文章 2023-07-23 来自:开发者社区

TensorFlow 高级技巧:自定义模型保存、加载和分布式训练

本篇文章将涵盖 TensorFlow 的高级应用,包括如何自定义模型的保存和加载过程,以及如何进行分布式训练。 一、自定义模型的保存和加载 在 TensorFlow 中,我们可以通过继承 tf.train.Checkpoint 来自定义模型的保存和加载过程。 以下是一个例子: class CustomModel(tf.keras.Model...

TensorFlow 高级技巧:自定义模型保存、加载和分布式训练
问答 2023-06-05 来自:开发者社区

机器学习PAI在easyrec里自定义了一些逻辑,pai上做分布式训练的时候如何让这个第三方包生效?

机器学习PAI在easyrec里自定义了一些逻辑,引用了第三方包,在pai上做分布式训练的时候如何让这个第三方包生效啊?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问