基于ACK多机分布式部署DeepSeek满血版推理部署实战
本文深入解析基于阿里云容器服务ACK的DeepSeek-R1-671B大模型分布式推理实战方案。针对该千亿参数模型(671B)单卡显存不足的挑战,提出混合并行策略(Pipeline Parallelism=2 + Tensor Parallelism=8),结合阿里云Arena工具,实现在2台ecs.ebmgn8v.48xlarge(8*96GB)节点上的高效分布式部署。进一步演示如何将部署于AC...
设置Slurm队列优先级
为了更有效地管理和分配资源,优化作业调度,提升系统利用率,并满足多样化的作业需求,队列成为任务调度中不可或缺的配置项。合理的队列设置能够确保高优先级的任务优先获得所需资源,从而最大化资源利用效率。本文介绍在Slurm系统环境下,当出现作业提交或作业状态变化时,如何通过恰当的队列配置策略来实现尽可能多的任务调度处理,以达到最佳性能。
Slurm用户及账户配置推荐设置
Slurm提供的账户与用户可被用于管理任务提交以及计费统计。本文主要介绍如何在Slurm集群中正确配置账户和用户,包括创建、修改和删除账户及用户的方法,并深入探讨如何以账户为单位来有效地跟踪和统计任务所消耗的资源量,从而帮助企业或研究机构更好地管理和优化其计算资源的使用效率。
基于ComfyUI编排文生图workflow
ComfyUI是一款开源的图形化AI工作流工具,专注于简化生成式模型(如Stable Diffusion)的开发和部署流程。其基于节点化设计,您可通过拖放模块快速搭建图像生成、文本处理等复杂流程,支持本地与云端部署。本文将介绍如何基于阿里云产品完成ComfyUI的本地安装,包括环境配置、依赖安装及基础使用等步骤。
自动化运维的魔法书云原生之旅:从容器化到微服务架构的演变
在IT的世界里,运维工作往往被视为日复一日的重复劳动,但正是这些基础工作保证了系统的稳定运行。然而,随着技术的发展,我们有了新的机会——自动化运维。这不仅仅是为了减轻工作量,更重要的是提高可靠性和效率。接下来,我将分享一些自动化运维的实用技巧和代码示例,帮助你构建自己的“魔法书”。 首先...
企业级运维之云原生与Kubernetes实战课程 第三章第2讲 深入剖析linux容器&Pod(下)
企业级运维之云原生与Kubernetes实战课程第三章第2讲 深入剖析linux容器&Pod(下) 视频地址:https://developer.aliyun.com/learning/course/913/detail/14555 三、资源限制(cgroup) 1. 控制器组(cgroup) cgroup是Linux co....

企业级运维之云原生与Kubernetes实战课程 - 第二章第6讲 阿里云容器服务集群日志与监控
企业级运维之云原生与Kubernetes实战课程第二章第6讲 阿里云容器服务集群日志与监控 视频地址:https://developer.aliyun.com/learning/course/913/detail/14649 摘要:本小节主要内容为K8s日志服务与监控,包括日志服务简介、日志服务采集、集群监控。 目录 日志服务简介日志服务采集集....

企业级运维之云原生与Kubernetes实战课程 - 第二章第5讲 阿里云容器服务集群存储
企业级运维之云原生与Kubernetes实战课程第二章第5讲 阿里云容器服务集群存储 视频地址:https://developer.aliyun.com/learning/course/913/detail/14651 摘要:本讲主要内容为阿里云容器服务集群存储,包括CSI概述、存储卷特点、存储卷应用场景、集群存储常见问题。 目录 CSI概述存....

企业级运维之云原生与Kubernetes实战课程 - 第二章第2讲 阿里云容器服务集群应用管理
企业级运维之云原生与Kubernetes实战课程第二章第2讲 阿里云容器服务集群应用管理 视频地址:https://developer.aliyun.com/learning/course/913/detail/14504 摘要:本小节主要内容为集群中应用管理,包括如何在控制台进行应用的创建及创建应用过程中详细配置的介绍。 目录 控制台使用详细....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
阿里云云原生
关注云原生中间件、微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生技术趋势、云原生大规模的落地实践
+关注