AI文摘

blog-thum
使用DPO微调Llama2

简介基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF)事实上已成为GPT-4或Claude等LLM训练的最后一步,

read more