AI新工具
banner

CLM-7B


介绍:

CLM-7B 是由苹果开发的拥有70亿参数的英语解码器语言模型,用于改善语言模型性能。









CLM-7B

CLM-7B(DCLM-Baseline-7B)是一款拥有70亿参数的语言模型,该模型是基于DCLM-Baseline数据集训练的。数据集是DataComp for Language Models (DCLM)基准测试的一部分。CLM-7B旨在展示系统性数据整理技术对提升语言模型性能的效果。以下是对该模型的总结性介绍:

模型细节
  • 参数量: 70亿
  • 训练语料: 2.5兆亿 tokens
  • 层数: 32
  • 隐藏层大小: 4096
  • 注意力头数: 32
  • 上下文长度: 2048 tokens
模型描述
  • 开发团队: DCLM团队
  • 模型类型: 仅解码的Transformer语言模型
  • 主要语言: 英文
  • 许可证: Apple Sample Code License
  • 发布日期: 2024年6月
使用方式
  1. 安装相关库 open_lm:
    pip install git+https://github.com/mlfoundations/open_lm.git
    
  2. 加载和使用模型:
    from open_lm.hf import *
    from transformers import AutoTokenizer, AutoModelForCausalLM
    
    tokenizer = AutoTokenizer.from_pretrained("apple/DCLM-Baseline-7B")
    model = AutoModelForCausalLM.from_pretrained("apple/DCLM-Baseline-7B")
    
    inputs = tokenizer(["Machine learning is"], return_tensors="pt")
    gen_kwargs = {"max_new_tokens": 50, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.1}
    output = model.generate(inputs['input_ids'], **gen_kwargs)
    output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True)
    print(output)
    
训练细节
  • 架构: 仅解码的Transformer
  • 框架: PyTorch 与 OpenLM
  • 优化器: AdamW
  • 学习率: 2e-3 (峰值)
  • 权重衰减: 0.05
  • 批次大小: 2048 sequences
  • 序列长度: 2048 tokens
  • 训练硬件: H100 GPUs
评估结果

该模型在多个任务上进行了评估,包括MMLU、HellaSwag、Jeopardy、TriviaQA等。最终得分在0到1之间,是正确答案的比例。例如,在MMLU(few-shot)任务上的得分为0.6372。

对比

与其他参数量在70亿左右的模型相比,DCLM-7B在许多任务上表现优越。例如,在核心任务(CORE)上的得分为56.1,比Llama2, DeepSeek, Falcon等模型表现出色。

限制与偏见

该模型可能包含训练数据中的偏见,且没有进行特定的对齐或安全微调,因此输出结果应谨慎使用。此外,模型的知识仅限于训练数据的截断日期。

伦理考量

用户应注意,该模型可能生成有害或具偏见的内容。在涉及对个体决策或敏感应用时,应配备适当的安全措施和人工监督。

引用

如需引用,请参见以下格式:

@article{Li2024DataCompLM,
  title={DataComp-LM: In search of the next generation of training sets for language models},
  author={Jeffrey Li et al.},
  journal={arXiv preprint arXiv:2406.11794},
  year={2024}
}
可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621