AI文摘

blog-thum
llamacpp源码解析

0 前言1代码结构&调用流程   11代码结构   12调用流程2逐算子解析  21AttentionBlock     211rms_norm_f32  

read more
blog-thum
RLHF和DPO:简化和增强语言模型的微调

1什么是RLHF?人类反馈强化学习(RLHF)是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人

read more
blog-thum
LLM训练指南-Token及模型参数准备

引言在当今AI领域,大型预训练语言模型已成为一种关键技术,推动了自然语言处理领域的进步。本文旨在提供一个辅助指南,如何准备预训练模型大小、数据集大小,以及帮助读者了解如何提升预训练模型的表现。本文将分

read more