阿里云文档 2025-01-09

GPU配置故障告警及修复方案

ACK集群针对GPU节点的坏卡场景,提供了多维度的监控、诊断、告警与恢复机制。本文将介绍GPU节点故障的具体排查步骤及恢复方案。

文章 2024-12-16 来自:开发者社区

重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖

在数据驱动的时代背景下,快速准确地检索大量非结构化数据,对于支持前沿AI应用至关重要。然而,加载向量数据的内存带宽和高吞吐量的需求不断挑战着基于CPU的传统解决方案。为应对挑战,OpenSearch向量检索版在 阿里云上有了新突破。 OpenSearch向量检索版在阿里云上正式推出面向企业开发者的 GPU图算法的方案(CAGRA算法),并支持客户直接购买GPU规格节点,这是国内...

重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖
问答 2024-01-04 来自:开发者社区

云原生 AI 套件中,阿里云的ack服务,部署的代码想要检测宿主机是否有GPU资源,这个有方案么?

云原生 AI 套件中,阿里云的ack服务,部署的代码想要检测宿主机是否有GPU资源,这个有方案么?

文章 2023-12-22 来自:开发者社区

阿里云GPU云服务器有哪些方案

弹性计算:阿里云GPU云服务器提供了弹性计算服务,用户可以根据自己的需求灵活地调整GPU的数量和规格。这种方案适用于需要进行大规模并行计算、深度学习等场景。容器服务:阿里云GPU云服务器支持容器服务,用户可以将自己的应用程序打包成容器镜像,并在GPU云服务器上运行。这种方案适用于需要进行容器化部署的应用程序,如机...

文章 2023-12-13 来自:开发者社区

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)

背景GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。传统上,当数据需要在 GPU 和另一个设备之间传输时,数据必须通过 CPU,从而导致潜在的瓶颈并增加延迟。使用 GPUDirect,网络适配器和存储驱动器可以直接读写 GPU 内存,减少不必要的内存消耗,减少 CPU....

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
文章 2023-12-07 来自:开发者社区

阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案

本篇文章围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。一、生成式AI技术栈介绍1、生成式AI爆发的历程在2022年的下半年,业界迎来了生成式AI的全面爆发,尤其是以ChatGPT为代表的大语言模型和以Stable Diffusion为代表的图片生成类模型。举个例子,某幼儿园老师要求家长写一篇1500字的关于家庭教育法的....

阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
文章 2023-08-22 来自:开发者社区

基因组大数据计算: CPU和GPU加速方案深度评测

随着NGS测序通量的大幅提高,搭配高效NGS二级分析技术的精准解决方案快速融进基因组学的各个应用领域:遗传进化、临床诊断、分子育种、医药开发等。以下我们通过对基于CPU和GPU不同硬件平台的NGS二级分析方案进行详细评测,以期为基因组学研究领域的用户提供参考。Sentieon软件是面向CPU平台开发的,在不需要专用的编程语言,不依赖任何专用硬件的情况下进行快速基因变异检测分析,大幅降低了软件的配....

基因组大数据计算: CPU和GPU加速方案深度评测
文章 2023-07-31 来自:开发者社区

PyTorch 中的多 GPU 训练和梯度累积作为替代方案

动动发财的小手,点个赞吧! 在本文中,我们将首先了解数据并行(DP)和分布式数据并行(DDP)算法之间的差异,然后我们将解释什么是梯度累积(GA),最后展示 DDP 和 GA 在 PyTorch 中的实现方式以及它们如何导致相同的结果。 简介 ...

文章 2023-05-14 来自:开发者社区

详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能(2)

HabanaHabana 成立于 2016 年初,是一家专注于数据中心训练和推理的 AI 加速器公司。Habana 已推出云端 AI 训练芯片 Gaudi 和云端 AI 推理芯片 Goya。Goya 处理器已实现商用,在极具竞争力的包络功率中具有超大吞吐量和超低的实时延迟,展现出卓越的推理性能。Gaudi 处理器旨在让系统实现高效灵活的横向、纵向扩展。目前 Habana 正在为特定超大规模客户提....

详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能(2)
文章 2023-05-14 来自:开发者社区

详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能(1)

在 上一篇文章中,前苹果工程师、普林斯顿大学博士 Adi Fuchs 聚焦 AI 加速器的秘密基石:指令集架构 ISA、可重构处理器等。在这篇文章中,我们将跟着作者的思路回顾一下相关 AI 硬件公司,看看都有哪些公司在这一领域发力。 这是本系列博客的第四篇,主要介绍了 AI 加速器相关公司。全球科技行业最热门的领域之一是 AI 硬件, 本文回顾了 AI 硬件行业现状,并概述相关...

详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能(1)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

云服务器ECS是一种安全可靠、弹性可伸缩的IaaS级云计算服务。在这里你可以获取最新的ECS产品资讯、最前沿的技术交流以及优惠活动等信息,加速自己的技术成长。

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等