CLM-7B
CLM-7B(DCLM-Baseline-7B)是一款拥有70亿参数的语言模型,该模型是基于DCLM-Baseline数据集训练的。数据集是DataComp for Language Models (DCLM)基准测试的一部分。CLM-7B旨在展示系统性数据整理技术对提升语言模型性能的效果。以下是对该模型的总结性介绍:
模型细节
- 参数量: 70亿
- 训练语料: 2.5兆亿 tokens
- 层数: 32
- 隐藏层大小: 4096
- 注意力头数: 32
- 上下文长度: 2048 tokens
模型描述
- 开发团队: DCLM团队
- 模型类型: 仅解码的Transformer语言模型
- 主要语言: 英文
- 许可证: Apple Sample Code License
- 发布日期: 2024年6月
使用方式
- 安装相关库 open_lm:
pip install git+https://github.com/mlfoundations/open_lm.git
- 加载和使用模型:
from open_lm.hf import * from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("apple/DCLM-Baseline-7B") model = AutoModelForCausalLM.from_pretrained("apple/DCLM-Baseline-7B") inputs = tokenizer(["Machine learning is"], return_tensors="pt") gen_kwargs = {"max_new_tokens": 50, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.1} output = model.generate(inputs['input_ids'], **gen_kwargs) output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True) print(output)
训练细节
- 架构: 仅解码的Transformer
- 框架: PyTorch 与 OpenLM
- 优化器: AdamW
- 学习率: 2e-3 (峰值)
- 权重衰减: 0.05
- 批次大小: 2048 sequences
- 序列长度: 2048 tokens
- 训练硬件: H100 GPUs
评估结果
该模型在多个任务上进行了评估,包括MMLU、HellaSwag、Jeopardy、TriviaQA等。最终得分在0到1之间,是正确答案的比例。例如,在MMLU(few-shot)任务上的得分为0.6372。
对比
与其他参数量在70亿左右的模型相比,DCLM-7B在许多任务上表现优越。例如,在核心任务(CORE)上的得分为56.1,比Llama2, DeepSeek, Falcon等模型表现出色。
限制与偏见
该模型可能包含训练数据中的偏见,且没有进行特定的对齐或安全微调,因此输出结果应谨慎使用。此外,模型的知识仅限于训练数据的截断日期。
伦理考量
用户应注意,该模型可能生成有害或具偏见的内容。在涉及对个体决策或敏感应用时,应配备适当的安全措施和人工监督。
引用
如需引用,请参见以下格式:
@article{Li2024DataCompLM,
title={DataComp-LM: In search of the next generation of training sets for language models},
author={Jeffrey Li et al.},
journal={arXiv preprint arXiv:2406.11794},
year={2024}
}
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621