01前言旋转位置编码RoPE(RotaryPositionEmbedding)被广泛应用于目前的大模型中,包括但不限于Llama、Baichuan、ChatGLM、Qwen等。但RoPE却有着
read more作者:爱吃牛油果的璐璐链接:https:zhuanlanzhihucomp652600621大语言模型能力LM的核心能力大致分为:生成(Generate)、总结(Summarize)、提取
read more本文,我们将了解如何基于PyTorch最新的完全分片数据并行(FullyShardedDataParallel,FSDP)功能用Accelerate库来训练大模型。动机🤗随着机器
read more今天分享一篇来自腾讯AILab的论文《Chain-of-Note:EnhancingRobustnessinRetrieval-AugmentedLanguageModels》。论文摘要
read more前两天SEBASTIANRASCHKA博士发了一篇博客介绍了使用LoRA微调大模型的一些实践经验(原文链接见参考资料),个人觉得有一定参考价值。总结一下分享给大家。简单介绍下什么是LoRA在深度学习
read moreChatGLM2-6B是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B引入了如下新特性:更强大的性
read more