LWM：一个基于RingAttention的1M长上下文，多模态（语言、图像、视频）的开源工作作者： NLP前沿来源： NLP前沿 “ 填填坑，看看假期的一些热门的工作，sora的技术报告这里不发了，很多技术笔者不太熟悉。 https://arxiv.org/pdf/2402.08268v1.pdf https://github.com/LargeWorldModel/LWM 文章中提到的训练步骤主要分为两个阶段：第一阶段是学习长上下文语言模型（Learning Long-Context Language Models），第二阶段是

LWM：一个基于RingAttention的1M长上下文，多模态（语言、图像、视频）的开源工作

作者： NLP前沿来源： NLP前沿

“

填填坑，看看假期的一些热门的工作，sora的技术报告这里不发了，很多技术笔者不太熟悉。

https://arxiv.org/pdf/2402.08268v1.pdf  
https://github.com/LargeWorldModel/LWM

文章中提到的训练步骤主要分为两个阶段：第一阶段是学习长上下文语言模型（Learning Long-Context Language Models），第二阶段是学习长上下文视觉-语言模型（Learning Long-Context Vision-Language Models）。

1.上下文扩展（Extending Context）：

使用RingAttention技术，通过分块计算和序列并行，理论上可以扩展到无限上下文，仅受限于可用设备数量。
- 分块计算：将长序列分割成多个较小的块（blocks），每个块包含固定数量的标记（tokens）。这样，模型只需要计算每个块内的注意力权重，而不是整个序列。
- 序列并行：在训练过程中，可以并行处理多个块，每个块由不同的GPU处理。这种方法允许模型在多个设备上同时处理序列的不同部分，从而提高了训练效率。
- RingAttention 使用一个环形结构来组织块，这样每个块只需要与其相邻的块进行通信。这种结构减少了通信开销，因为每个块只需要与其直接相邻的块交换信息
采用渐进式训练方法，从32K标记开始，逐步增加到1M标记，以有效扩展上下文大小。
- RingAttention 支持渐进式训练，这意味着模型可以从处理较短的序列开始，然后逐步增加序列长度。这种方法有助于模型逐步学习处理更长序列的能力，同时保持训练效率。

*训练步骤（Training Steps） ：

*聊天微调（Chat Fine-tuning for Long-Context Learning） ：

1.视觉架构修改（Architectural Modifications For Vision）：

*训练步骤（Training Steps） ：

*评估结果（Vision-Language Evaluation Results） ：

可关注我们的公众号：每天AI新工具