AI 文摘

Eagle7B:华人小团队做的大模型,采用区别于Transformer的RWKV





作者: 小麦AIGC 来源: 小麦AIGC

华人AI创业小团队元智能最近发布了一款名为Eagle 7B的模型,这标志着RWKV-v5架构和线性Transformer进入了一个新的时代。

RWKV(Receptance Weighted Key Value)是一种区别于Transformer的新型模型架构,它结合了RNN和Transformer的优点,通过引入线性注意力机制,实现了类似于RNN的序列处理能力和Transformer的并行训练能力。

RWKV的架构设计允许模型在训练期间并行化计算,并在推理过程中保持恒定的计算和内存复杂性。这种设计使得RWKV在处理长序列时具有与Transformer相近的性能,同时在推理效率上优于传统的Transformer模型。

Eagle 7B是一个拥有75.2亿参数的模型,它在多语言性能上取得了显著的成就,同时在环境可持续性方面也表现出色。

####Eagle 7B的特点

  • 架构:基于RWKV-v5架构,这是一种线性Transformer,具有10-100倍+的推理成本优势。

  • 环境友好:被评为世界上“最绿色”的7亿参数模型(按每个token计算)。

  • 多语言训练:在100多种语言上训练了1.1万亿个标记。

  • 性能:在多语言基准测试中超越了所有7亿参数级别的模型,并在英语评估中接近Falcon(1.5T)、LLaMA2(2T)和Mistral(>2T)的性能水平。

  • 无注意力机制:作为一个“无注意力Transformer”,在各种使用场景中需要进一步的微调。

Eagle 7B模型已开源,可商用,无使用限制,您可以从Huggingface下载模型。

多语言能力

RWKV团队在多个多语言基准测试中评估了Eagle 7B的性能,包括xLAMBDA、xStoryCloze、xWinograd和xCopa。

这些测试覆盖了23种语言,主要涉及常识推理。结果显示,与RWKV v4架构相比,v5架构在多语言性能上有显著提升。

模型性能

RWKV团队观察到,即使只是300亿token的Checkpoint,他们的模型也显示出与Pythia-6.9b相似的性能。

这表明,线性Transformer在性能水平上与传统Transformer相似,只要训练token数相同。这引发了一个问题:模型评估性能是否更多地取决于数据集而非架构?

包容性AI

RWKV团队致力于构建不仅服务于英语世界,而是服务于全球的AI。他们计划通过扩大多语言数据集,逐步覆盖全球100%的语言,确保没有一种语言被忽视。

未来计划

RWKV团队计划在2024年发布更新的RWKV v5:Eagle论文,深入探讨自v4以来的架构变化和模型基准测试。

他们还计划进行额外的1T标记训练(总计2T),以便与LLaMA2 7B模型进行直接比较,并在2024年3月发布基于v5 Eagle 2T模型的MoE模型。此外,他们还计划推出RWKV-v6:“Finch” 1.5B和3B世界模型。

线上体验

https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2

参考博客:

https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

END

如果喜欢上面的内容,请关注小麦AIGC,最新内容每日更新;如有好的选题建议,也可以给我们发消息哦。

点个在看,你最好看

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具