AI新工具
banner

Phi-3.5-MoE


介绍:

Phi-3.5-MoE是微软推出的一款轻量级多语言模型,专注于高质量推理和长文本处理。









Phi-3.5-MoE

Phi-3.5-MoE(Mixture of Experts)是一种轻量级的开源先进模型,基于Phi-3模型构建,使用合成数据和经过筛选的公共可用文档作为训练数据,重点关注高质量的推理密集型数据。该模型支持多语言,具有高达128K的上下文长度(以标记为单位)。Phi-3.5-MoE经过严格的增强过程,包括监督微调、邻近策略优化和直接偏好优化,以确保精确遵循指令和强大的安全措施。

主要用途

该模型适用于商业和研究用途,支持多语言,提供通用AI系统和需要强推理能力(尤其是代码、数学和逻辑)的应用。它旨在加速对语言和多模态模型的研究,并用作生成AI功能的构建块。

使用要求

Phi-3.5-MoE-instruct模型将在官方的transformers版本中集成,用户需确保在加载模型时传递trust_remote_code=True参数。支持的词汇表大小达到32064个标记,适合使用聊天格式的提示进行输入。

训练数据和模型架构

Phi-3.5-MoE的架构为16个3.8B参数的混合专家解码器,仅在使用两个专家时激活6.6B参数。模型训练使用了合计4.9万亿个标记的多样化数据,包括新创建的合成数据和经过筛选的高质量教育数据。

评估与安全考虑

Phi-3.5-MoE在多个基准测试中表现出色,尤其在推理能力上优于许多更大规模的模型。虽然模型在多语言任务上具有竞争力,但由于训练数据的限制,处理非英语内容的表现可能存在差异。模型生成的内容可能会包含不准确或过时的信息,因此在敏感上下文中使用时需要谨慎。

总体来说,Phi-3.5-MoE是一个强大的通用模型,适用于众多NLP任务,尤其是在资源有限的环境和高延迟场景下表现优异。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621