阿里云文档 2025-02-13

使用DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。

阿里云文档 2024-12-27

使用TensorRT-LLM构建模型的推理环境

在GPU的实例上安装推理引擎TensorRT-LLM,可以帮助您快速且方便地构建大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)的推理环境,主要应用在智能对话系统、文本分析等自然语言处理业务场景。本文为您介绍如何在GPU实例上安装和使用TensorRT-LLM来快速构建大语言模型的高性能推理优化功能。

阿里云文档 2024-05-09

AI通信加速库DeepNCCL的架构、性能以及优化原理

DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍DeepNCCL的架构、优化原理和性能说明。

文章 2023-02-16 来自:开发者社区

《端到端GPU性能在深度学学习场景下的应用实践》电子版地址

《端到端GPU性能在深度学学习场景下的应用实践》端到端GPU性能在深度学学习场景下的应用实践 电子版下载地址: https://developer.aliyun.com/ebook/1253 电子书: </div>

《端到端GPU性能在深度学学习场景下的应用实践》电子版地址
问答 2018-07-16 来自:开发者社区

端到端GPU性能在深度学学习场景下的应用实践

阿里巴巴高级算法专家杨军在2017杭州云栖大会中做了题为《端到端GPU性能在深度学学习场景下的应用实践》的分享,就深度学习背景,优化思考,特征案例做了深入的分析。 https://yq.aliyun.com/download/1838?spm=a2c4e.11154804.0.0.61df6a79WNL2nV

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

云服务器ECS是一种安全可靠、弹性可伸缩的IaaS级云计算服务。在这里你可以获取最新的ECS产品资讯、最前沿的技术交流以及优惠活动等信息,加速自己的技术成长。

+关注