太强了！斯坦福继FlashAttentionV1和V2又推出FlashDecoding 作者：老刘说NLP 来源：老刘说NLP 斯坦福大学此前提出的FlashAttention算法，能够在BERT-large训练中节省15%，将GPT训练速度提高2/3。此后又提出FlashAttention V2 ，拥有了更好的并行性和工作分区，让计算

太强了！斯坦福继FlashAttentionV1和V2又推出FlashDecoding

By AiBard123
March 12, 2024 - 2 min read

作者：老刘说NLP 来源：老刘说NLP

斯坦福大学此前提出的FlashAttention算法 ，能够在BERT-large训练中节省15%，将GPT训练速度提高2/3。此后又提出FlashAttention V2 ，拥有了更好的并行性和工作分区，让计算提速200%，上下文长度扩展更任性！

Flash-Decoding 不仅借鉴了FlashAttention的优点，同时可以显著加快推理过程中的注意力，使非常长的序列的生成速度提高8倍。也可以极大提高了encoding速度。

紧跟前沿技术，找到自己论文的创新点！研梦非凡 邀请大模型资深算法工程师魏导师，带大家系统学习FlashAttentionV1，FlashAttention V2，Flash Decoding的算法核心和实验分析 ！

扫码找助教****免费学习三节系列课

找助教领 👆百篇FlashAttention 和大模型必读论文+50小时3080 GPU 算力

注：FlashAttentionV1和FlashAttention V2已经录制完毕，Flash Decoding将在3月15日直播！

FlashAttention前沿论文解析系列课

FlashAttentionV1

往期直播

part1：7大核心要点

FlashAttention是一种快速且内存高效的精确注意力机制，同时具有IO感知性。
解决了Transformer在计算长文本时面临的平方时间复杂度问题。
不同于其他Efficient Transformer，FlashAttention将优化重点放在了降低存储访问开销上。
……

part2：探索研究背景

IO-Aware Runtime Optimization
Efficient ML Models with Structured Matrices
Sparse Training
Efficient Transformer

part3：相关工作讲解

计算机架构
Self-Attention 计算
Safe Softmax 公式
Online softmax 公式图片

part4：算法分析

Flash Attention算法两个主要思想
Flash attention的计算过程（算法实现）

part5：实验结果

Training Speed
模型加速测试

扫码找助教免费学习三节课‍‍‍‍

找助教领 👆百篇FlashAttention 和大模型必读论文+50小时3080 GPU 算力

FlashAttention V2

往期直播

论文摘要、简介、创新点

研究背景

背景知识

GPU performance characteristics

Hardware角度

GPU Software 编程角度

Hardware和Software的联系

Standard Attention Implementation

FlashAttention

算法核心

Algorithm
Parallelism

实验分析

Benchmarking attention
End-to-end training speed

讨论

扫码找助教免费学习三节课‍‍‍‍

找助教领 👆百篇FlashAttention 和大模型必读论文+50小时3080 GPU 算力

FlashAttention-3：Flash Decoding

直播课程

Flash-Decoding创新点

Flash-Decoding研究背景

GPU性能特点
GPU Software 编程角度
Standard Attention Implementation
FlashAttention

算法核心

Multi-head attention for decoding
A faster attention for decoding: Flash-Decoding

Flash Decoding主要步骤

实验讲解

Benchmarks on CodeLlama 34B
Component-level micro-benchmarks

直播时间

3月15日晚19:20

扫码找助教免费预约直播

找助教领 👆百篇FlashAttention 和大模型必读论文+50小时3080 GPU 算力

直播课主讲导师

魏导师

从事新能源汽车智能座舱语音对话高级算法研发；芯片公司模型训练推理加速框架研发和高性能计算工程师；大模型算法资深工程师。

*学术成就： 发表多篇sci、ccf论文，工信部重点项目1项。

*可带方向： 大语言模型预训练和微调对齐、医疗大语言模型、code LLM算法研究、模型推理加速、AIGC多模态、AI推理框架。

ps：研梦非凡做前沿论文直播，主要是教会大家如何读论文时候抓住重点，从实际读论文的过程中，让大家掌握有效的方法，发现找创新点和写论文阅读报告的能力。

cv全方向/nlp全方向/机器学习/深度学习及AI+金融，医疗，交通等方向的ccf a-c，sci一区-四区 ，核心论文都可以来研梦非凡匹配到合适的科研指导（可以享受3月课程福利哦～）。

根据同学们的科研需求我们推出两种论文指导方案：

1v1定制化论文指导

按不同的需求收费，区别于其他1v1论文辅导收全程指导费。
针对在完成论文的过程中某些部分遇到难题，而找不到路径的同学，协助其用更少的费用快速地解决问题。

1v1定制化论文指导分三个阶段：

选题阶段

导师根据学员实际情况与需求，引导论文idea或给出论文idea
导师针对已有研究成果进行梳理和分析指导，让学员了解研究领域的发展状况、研究方法和趋势，确定论文idea的研究方法和目标。
导师结合己有研究成果的情况和论文idea，对学员后续的研究方法做出初步的规划和判断。

实验阶段

实验设计，明确研究问题、研究目标和研究方法
数据收集、整理与分析，确保数据的质量和完整性
实验代码实现与模型训练
实验微调与结果统计、呈现

成稿（让写作professional）阶段

因语言问题，科研协作经验缺乏，大多数的同学会因为用词和表达不够professional而被误解，导致论文改稿和评分低。

论文写作方法指导，论文写作框架与格式
参考文献筛选与列举
期刊会议筛选与投稿建议指导
论文文字部分的修改与润色
论文中所必要的表格与图片制作

定制1v1论文辅导 扫码咨询助教👇

1对1全程论文指导

全程论文指导的服务适合以下需求的同学

非常适合科研小白：有科研需求，想融会贯通地使用算法模型，了解前沿进展和方向；
非常适合转专业和研究领域做敲门砖用：从事人工智能领域工作，想系统提升算法理论，高效掌握算法设计及创新思路，快速了解论文撰写技能；

课程收获

学习经典前沿论文，掌握算法原理和实现，了解不同算法的优劣势；
指定领域创新点；
Coding能力增强；
论文写作方法以及投稿建议。

科研进度保障

主讲导师：顶会审稿人，负责经典论文+前沿论文讲解+idea给予/方向建议+写作方法+投稿建议
私人群：每个同学都有与主讲导师私人讨论的小群（idea探讨以及课程内容答疑）；
全程线上语音meeting+开麦沟通。

指导周期与价格表

总指导周期=核心指导期+维护期

根据需要发表论文的区位不同，指导总周期在3到18个月不等。
核心指导期是正常的上课指导周期，维护期是学员已经写出论文投出去后，可能会收到审稿意见要求修改或者退稿的情况（主讲导师会给同学进一步的修改建议，必要的话会约会议沟通，最多6次meeting）。
在核心指导期，一般是每周1次1对1会议指导课，每次在45分钟左右。

1v1全程论文指导 扫码咨询助教👇

导师介绍

研梦非凡的导师来自海外QStop80、国内华五、C9、985高校的教授/博士导师/博士后 ，世界500强公司算法工程师，国内外知名人工智能实验室研究员。（以下仅展示部分导师）导师均来自科研一线，购买联系助教后，可根据学员需求匹配导师库导师～～

李导师

海外QS30大学博士后，曾在多家研究院企业担任算法研究员。只接顶会、一区、二区意向学员

个人成就：

在顶级国际会议及期刊Environment of remote sensing,AAAI,ECCV,WACV等发表论文20余篇。专利著作7部。担任CVPR,ICCV,ECCV,ACM-MM,AAAI,NIPS等审稿人。

研究/辅导方向：

计算机视觉,机器学习,多模态学习。3D视觉（3D点云和图像表示学习、3D点云和2D图像的无监督和半监督学习、人体姿态估计、重建）；人脸分析（人脸关键点、重建、人脸跟踪）；模型压缩 (知识蒸馏、模型搜索量化剪枝)；通用视觉模型与应用(VIT、目标检测、语义分割)；AI基础理论(AutoML、数据增广、无监督/半监督/长尾/噪声/联邦学习)；AIGC生成模型高效训练和优化(扩散模型蒸馏、图文生成、3D生成等)；多模态学习（图像、3D点云和语言的多模型学习、vision-language、医学图像）；压缩感知的稀疏编码方法。

Mike导师

浙大博士，现任互联网大厂算法研究员，从事包括自动驾驶多模态感知系统，监控视频理解系统等项目。

个人成就：

在中科院一区二区等国际期刊发表论文近15篇，并担任cvpr，iccv, eccv, nips, icml, iclr等审稿人。

研究/辅导方向：

目前主要方向为深度学习视觉方向，生成模型方向（如GAN网络，diffusion，文生图等），视觉理解方向（如目标检测，分割，对比学习，模型结构设计等），多模态理解方向（如视觉和语言，声音等），3D点云，医疗图像领域，模型结构设计和计算机视觉在医疗上的应用等。

辅导亮点：

指导多名本硕学生撰写SCI 1区-4区学术论文，多名学生进入顶尖985高校、211高校双一流学科继续深造。

Bob导师

本硕博985

个人成就：

在TPAMI、TIP、CVPR、ICCV、ECCV等高水平期刊和会议上发表论文40余篇，其中CCF-A类论文20余篇,一作CCF-A类论文10余篇。

研究/辅导方向：

主要研究方向为图像复原、图像增强、神经网络轻量化、点云语义理解等。

辅导亮点：

先后指导硕士博士20余人,多名学生硕博期间发表CCF-A和CCF-B，SCI一区和SCI二区。

Wills导师

985高校通信与信息PHD

个人成就：

曾在某知名lab任研究员，多个SCI国际会议审稿人，IEEE Acecess审稿人。

研究/辅导方向：

机器人slam、无线感知、多模态融合、计算机视觉、大数据、云/雾计算、通信类、机械类。

辅导亮点：

曾辅导过数位硕士博士的毕论与本科生保研加分，对论文创新点挖掘具有丰富经验，目前已经发表数十篇SCI高水平论文。参与申请与开展国家级别课题数项（其中部分项目是实际负责人）。

李导师

BAT大厂算法专家

个人成就：

ACM multimedia oral论文一作。曾带队做过图像风格转换、图像/视频增强、人脸修复、图像/视频质量评价和自动驾驶感知数据合成等项目,对生成式模型有着丰富的实践经验。

研究/辅导方向：

主要研究方向为图像视频增强、多模态内容理解与数据合成，自动驾驶感知数据合成。

辅导亮点：

经验丰富，实力过硬，帮助50多名学员完成1v1定制化论文指导（实验阶段工作）

为你匹配合适课题的大牛导师 扫码咨询助教👇

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具