AI 文摘

大模型微调技巧-在Embeeding上加入噪音提高指令微调效果





作者: AINLP 来源: AINLP

写在前面

在去年6月的时候,分享过一篇ACL2022的文章《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》,通过微调前给预训练模型参数增加噪音提高预训练语言模型在下游任务的效果方法。NoisyTune方法在BERT、XLNET、RoBERTa和ELECTRA上均取得不错的效果。

那么通过加入噪音的方式,对现在大型语言模型是否有效呢?

今天群里就有人分享了一篇文章《NEFTUNE: NOISY EMBEDDINGS IMPROVE INSTRUCTION FINETUNING》,通过在Embedding层上加入噪音提高指令微调的效果,思路与NoisyTune是基本一致的。

在AlpacaEval榜单上,利用GPT4作为评分器,在多个数据上微调Llama2-7B模型,NEFTune方法相较于直接微调方法,均有显著提高。

Paper: https://arxiv.org/pdf/2310.05914.pdf  
Github: https://github.com/neelsjain/NEFTune  

方法

核心是输入经过Embedding层后,再加入一个均匀分布的噪声,噪声的采样范围为[-, ]之间,其中,为可调节参数,为输入长度,为Embedding层的维度,具体如下:

代码实现也十分简单,核心代码如下:

from torch.nn import functional as F  
  
def NEFTune(model, noise_alpha=5)  
    def noised_embed(orig_embed, noise_alpha):  
        def new_func(x):  
            # during training, we add noise to the embedding  
            # during generation, we don't add noise to the embedding  
            if model.training:  
                embed_init = orig_embed(x)  
                dims = torch.tensor(embed_init.size(1) * embed_init.size(2))  
                mag_norm = noise_alpha/torch.sqrt(dims)  
                return embed_init + torch.zeros_like(embed_init).uniform_(-mag_norm, mag_norm)  
            else:  
                return orig_embed(x)  
        return new_func  
    ##### NOTE: this is for a LLaMA model #####   
    ##### For a different model, you need to change the attribute path to the embedding #####  
    model.base_model.model.model.embed_tokens.forward = noised_embed(model.base_model.model.model.embed_tokens, noise_alpha)  
return model  

结果&分析

Llama2-7B模型在不同数据集上正常微调和NEFTune方法微调后,与Text-Davinci-003的胜率,平均高出15%,提高了模型生成文本的质量。

NEFTune方法,不仅在Llama2-7B模型有效,在OPT-6.7B、Llama1-7B上同样有效,如下图所示。

但有一点注意的是,ChatGPT作为评价器,NEFTune方法效果的提高没有GPT4作为评价器提高的多。

并且从OpenLLM榜单上结果来看,NEFTune方法对模型推理、认知等能力并没有负作用。

在高效调参方法(QLora)中使用NEFTune方法也依然有效。

NEFTune方法通过增加噪音,会是训练集上的Loss变高,验证集上的Loss变低,说明有能力缓解模型过拟合现象。

NEFTune方法会导致输出结果变长,但生成结果的重复率并没有显著提高,主要是提供了额外的细节。

通过实验发现,通过prompt限制等强制模型输出生成更长的结果,会使得评分变高,但都不如NEFTune方法。

并且对比了高斯噪声和均匀噪声,发现虽然高斯噪声会使得输出长度更长,但对结果并没有明显增益。

总结

NEFTune方法可以缓解模型在指令微调阶段的过拟合现象,可以更好的利用预训练阶段的知识内容。但研究目前还存在一些缺陷,例如评价器为GPT4、没有在更大的模型上进行实验。

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。

  


  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

阅读至此了,分享、点赞、在看三选一吧🙏

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具