StarCoder2
StarCoder2-15B模型是一个拥有15B参数的模型,它是在The Stack v2的600多种编程语言上进行训练的。该模型使用了Grouped Query Attention,上下文窗口包含16,384个标记,具有4,096个标记的滑动窗口注意力,并使用了Fill-in-the-Middle目标在4万亿个标记上进行了训练。该模型是使用NVIDIA NeMo™ Framework和NVIDIA DGX H100系统构建的NVIDIA Eos超级计算机进行训练的。模型的预训练数据集经过了许可证的筛选,只包括具有宽松许可证的代码和没有许可证的代码。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621