Qwen2.5-14B-Instruct-GPTQ-Int4量化模型是只能在GPU上运行吗?
Qwen2.5 GPTQ系列的量化模型是只支持在GPU上运行吗?不支持在CPU上运行?
有人测过qwen2-72B-int4么,ModelScope量化后,精度下降了很多?
有人测过qwen2-72B-int4么,ModelScope量化后,精度下降了很多?
7b chat做modelscope awq的int4量化,特别容易爆显存,怎么解决?
用swift做对baichuan2 7b chat做modelscope awq的int4量化,特别容易爆显存,怎么解决?
使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践
本文首发于 NVIDIA一、概述CodeFuse(https://github.com/codefuse-ai)是由蚂蚁集团开发的代码语言大模型,旨在支持整个软件开发生命周期,涵盖设计、需求、编码、测试、部署、运维等关键阶段。为了在下游任务上获得更好的精度,CodeFuse 提出了多任务微调框架(MFTCoder),能够解决数据不平衡和不同收敛速度的问题。通过对比多个预训练基座模型的精度表现,我....

16g显存的显卡不知道能不能运行,怎么设置modelscope 成int8量化?
modelscope中,16g显存的显卡不知道能不能运行,想问怎么设置成int8量化?
Int8量化算子在移动端CPU的性能优化
本文介绍了Depthwise Convolution 的Int8算子在移动端CPU上的性能优化方案。ARM架构的升级和相应指令集的更新不断提高移动端各算子的性能上限,结合数据重排和Sdot指令能给DepthwiseConv量化算子的性能带来较大提升。背景MNN对ConvolutionDepthwise Int8量化算子在ARM V8(64位)和ARM V8.2上的性能做了较大的优化,主要优化方法....

TensorRT-LLM在CodeFuse-CodeLlama-34B上的int4量化实践
概述本文档是利用TensorRT-LLM(early access)对 CodeFuse-CodeLlama-34B 进行int4量化的实践(注:TensorRT-LLM(GA) 已发布)。Codefuse是由蚂蚁集团开发的专门用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),涵盖设计、需求、编码、测试、部署、运维等关键阶段。致力于打造创新的解决方案,让软件开发者们在研发的过....

modelscope有提供baichuan13B系列的int8或int4量化模型吗?
modelscope有提供baichuan13B系列的int8或int4量化模型吗?
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。