AI 文摘

LLM模型量化推理速度评测





作者: AINLP 来源: AINLP

最近了解了下些常见的推理和加速方案:

  1. 量化方案:gptq、quantization、int8、int4、AWQ、Speculative Decoding、GGUF

  2. Attention加速方案:atten的不同种类、fused attention

  3. 内存层面:kv_cache策略、page_attention、StreamingLLM(这个不能算加速,算技巧)、batching、复用prompt策略、Continuous batching

  4. 硬件层面:A100最好,越高越好,新的加速硬件、flash_attention1 & flash_attention2 加速策略、kernel 算子融合策略、tensor 并行,分布式

  5. 模型层面:参数量降低1B?、层数降低、模型结构创新

部分经验总结 & 问题:

  1. compile 整个模型后的模型确实更快了,如果只compile attention部分加速不大,因为compile优化的空间并不大

  2. 投机采样测试过程中发现多卡推理 int4 模型出现报错,int8模型没有问题,这个目前没空看了

  3. 量化确实会带来速度的巨大提升,但是模型效果截图不太方便,效果确实降低了一些

  4. AWQ量化后的千问7B模型,效果巨差,暂不确定问题在哪,目测了效果

不同cuda_kernel 的测试结果: default vs sdp-math vs sdp-flash vs sdp-efficient:

vllm & compile & 量化 测试后的结果:

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具