AI 新工具

AI新工具(20241227) 智谱开源CogAgent AI自动屏幕操作;DeepSeek-V3低调但效果好到刷屏;AI个人简历的平台


  • By AiBard123
  • December 27, 2024 - 2 min read



✨ 1: CogAgent

CogAgent是一款开源的基于视觉语言模型的GUI代理,支持中英文互动并具备优秀的任务广泛性和推理准确性。

CogAgent是一个基于视觉语言模型(VLM)的GUI代理,致力于实现更高效的图形用户界面交互。其最新版本CogAgent-9B-20241220在GUI感知、推理准确性、操作空间的完整性、任务通用性和泛化能力等方面均有显著提升。该模型支持中英文双语交互,能够通过屏幕截图和自然语言进行操作。CogAgent是开源的,旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理技术的发展。

地址:https://github.com/THUDM/CogAgent

✨ 2: DeepSeek-V3

DeepSeek-V3是一款强大的混合专家语言模型,具备671亿参数,表现优于大多数开源和闭源模型。

DeepSeek-V3是一款强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有6710亿总参数,针对每个token激活37亿参数。该模型采用了一种创新的多头潜在注意力(Multi-head Latent Attention, MLA)架构,以及经过充分验证的DeepSeekMoE架构。CogAgent实施了无辅助损失的负载均衡策略,并提出了多token预测训练目标,从而显著提升模型性能。它在1480万多样的高质量token上进行了预训练,并经过监督微调和强化学习阶段,从而充分挖掘其潜力。

DeepSeek-V3在诸多标准基准测试中表现优异,尤其在数学和代码任务上表现突出,成为当前最强的开源基础模型,且训练成本低廉,其全程训练的稳定性也得到了高度认可。

地址:https://github.com/deepseek-ai/DeepSeek-V3

✨ 3: Valley 2.0

Valley 2.0是字节跳动开发的一款先进多模态大模型,可处理文本、图像和视频数据。

Valley 2.0是由字节跳动开发的一款先进的多模态大模型,旨在处理文本、图像和视频数据等多种任务。该模型在内部电商和短视频基准测试中取得了最佳效果,相较于其他开源模型表现更为出色。同时,在OpenCompass测试中,Valley 2.0在同规模模型中平均分数>=67.40,位列前2名。

Valley 2.0的基础版本名为Valley-Eagle,融合了Siglip和Qwen2.5的技术架构,并引入了VisionEncoder来在极端场景下提升模型性能。通过多种技术的组合,使得Valley 2.0在视觉和语言的交互处理上具有更高的灵活性和准确性。

地址:https://github.com/bytedance/Valley

✨ 4: devb.io

devb.io 是一个利用 GitHub 和 AI 自动生成专业开发者个人简历的平台,操作简便。

devb.io 是一个创新的平台,旨在通过直接从 GitHub 个人资料生成专业的开发者作品集,使得制作和维护作品集变得简单且自动化。该平台利用人工智能技术,不仅能够自动派生出作品集,还能帮助用户生成个性化的简介,并实时跟踪用户在 GitHub 上的活动。

地址:https://github.com/sunithvs/devb.io

✨ 5: Memory Layers

该仓库提供了“Memory Layers at Scale”论文的参考实现,支持大规模分布式训练与评估。

Memory Layers是一个针对大规模记忆层的参考实现,来源于论文《Memory Layers at Scale》。这个项目旨在通过记忆层(memory layers)优化深度学习模型的性能,特别是在处理大规模数据时的效率和准确性。核心的构造包括用于并行化记忆存取的技术,以及高效的嵌入实现。这些技术能够帮助在如自然语言处理等复杂任务中提升模型的能力。

地址:https://github.com/facebookresearch/memory



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621