一文解析StableDiffusion模型推理加速技巧作者：老刘说NLP 来源：老刘说NLP 大模型时代，模型的参数量动辄数十亿甚至千亿，比如GPT-3的参数量达到了1750亿。1750亿个参数，如果采用fp16存储，那么模型的大小约为325.5G，现有最强的计算平台也很难满足其显存要求。此外，大

一文解析StableDiffusion模型推理加速技巧

By AiBard123
April 12, 2024 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

大模型时代，模型的参数量动辄数十亿甚至千亿，比如GPT-3的参数量达到了1750亿。1750亿个参数，如果采用fp16存储，那么模型的大小约为325.5G，现有最强的计算平台也很难满足其显存要求。此外，大模型部署上线后，推理速度直接影响了用户的使用体验，因为没有用户可以忍受大模型输出文字或者输出图片的响应速度超过3分钟。

针对大模型存储以及推理的实际诉求，工业界迫切需要模型压缩与推理加速技术，比如INT8量化甚至1bit量化、CUDA Graph优化、ONNX模型以及Pipeline优化等。除了技术不断迭代之外，模型压缩与推理工程师人才的需求也在迅速增加 ，究其原因在于，各大企业正通过开源的基础大模型进行垂直业务场景大模型的研发以及部署。

就类似于手机操作系统，目前市面上主流的手机操作系统仅有安卓、IOS、鸿蒙等几个，但大多数互联网企业都会养一个移动端开发的团队，开发自己的APP。基础大模型就像手机操作系统；垂直行业的大模型就是每家企业的移动端开发团队，其人才需求远超过基础大模型。因此，接下来的1-2年，模型压缩与推理加速工程师的岗位仍然是AI行业为数不多的蓝海**。**

不同于其他AI岗位，模型压缩与推理岗位特别看重项目实战经验，这也是高校内相关人才培养稀缺的原因之一。基于此，深蓝学院开设了**『深度学习模型推理加速项目实践（Stable Diffusion）』** 课程，以实战的形式帮助大家学习diffusion类模型的推理上线。

（TRT SD模型 L4 sec3-4 FP16溢出调试实践）

扫码添加，了解详情

备注【411】优先通过！