深度探索StableDiffusion模型推理加速作者：吃果冻不吐果冻皮来源：吃果冻不吐果冻皮大模型时代，模型的参数量动辄数十亿甚至千亿，比如GPT-3的参数量达到了1750亿。1750亿个参数，如果采用fp16存储，那么模型的大小约为325.5G，现有最强的计算平台也很难满足其显存要求。

深度探索StableDiffusion模型推理加速

By AiBard123
April 12, 2024 - 2 min read

作者：吃果冻不吐果冻皮来源：吃果冻不吐果冻皮

大模型时代，模型的参数量动辄数十亿甚至千亿，比如GPT-3的参数量达到了1750亿。1750亿个参数，如果采用fp16存储，那么模型的大小约为325.5G，现有最强的计算平台也很难满足其显存要求。此外，大模型部署上线后，推理速度直接影响了用户的使用体验，因为没有用户可以忍受大模型输出文字或者输出图片的响应速度超过3分钟。

针对大模型存储以及推理的实际诉求，工业界迫切需要模型压缩与推理加速技术，比如INT8量化甚至1bit量化、CUDA Graph优化、ONNX模型以及Pipeline优化等。除了技术不断迭代之外，模型压缩与推理工程师人才的需求也在迅速增加 ，究其原因在于，各大企业正通过开源的基础大模型进行垂直业务场景大模型的研发以及部署。

就类似于手机操作系统，目前市面上主流的手机操作系统仅有安卓、IOS、鸿蒙等几个，但大多数互联网企业都会养一个移动端开发的团队，开发自己的APP。基础大模型就像手机操作系统；垂直行业的大模型就是每家企业的移动端开发团队，其人才需求远超过基础大模型。因此，接下来的1-2年，模型压缩与推理加速工程师的岗位仍然是AI行业为数不多的蓝海。不同于其他AI岗位，模型压缩与推理岗位特别看重项目实战经验，这也是高校内相关人才培养稀缺的原因之一。基于此，深蓝学院开设了『深度学习模型推理加速项目实践（Stable Diffusion）』课程，以实战的形式帮助大家学习diffusion类模型的推理上线。

扫码添加，了解详情

讲师介绍

杨伟光 前腾讯高级研究员

毕业后一直在腾讯从事语音领域深度学习加速上线工作。近10年CUDA开发经验，近6年TensorRT 开发经验，Github TensorRT_Tutorial作者。

课程亮点

1.以实战的形式指导学员学习diffusion类模型的推理上线；

2.不仅教会大家如何做，更着重教懂大家为什么这么做；

3.课程配备完善的答疑服务，讲师直接答疑解惑。

课程大纲

课程目标

1.学习diffusion类模型的TensorRT加速策略

2.学习如何选择最优和性价比最高的加速策略

3.学习如何分析模型结构并进行合并加速

抢占名额

扫码添加，了解详情

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具