AI新工具(20240618) 开源的代码语言模型DeepSeek-Coder-V2;Runway推出Gen-3;多层架构整合多个大语言模型;大规模钢琴手部动作数据集和基准
✨ 1: DeepSeek-Coder-V2
开源的多专家代码语言模型,支持338种编程语言。
DeepSeek-Coder-V2 是一个开源的代码语言模型,专为代码生成、代码补全、代码修复以及数学推理等任务而设计。该模型通过在大量高质量的多源语料库上进一步训练,显著提升了其在代码生成和数学推理方面的能力,同时在一般语言任务中的表现也保持在同等水平。DeepSeek-Coder-V2 支持 338 种编程语言并将上下文长度从 16K 扩展到 128K。该模型分为 16B 和 236B 参数版本,且在多项基准测试中表现优越,甚至在某些任务上超越了如 GPT4-Turbo 等闭源模型。
模型地址:https://huggingface.co/collections/deepseek-ai/deepseekcoder-v2-666bf4b274a5f556827ceeca
地址:https://github.com/deepseek-ai/DeepSeek-Coder-V2
✨ 2: Gen-3 Alpha
由Runway推出的高保真可控视频生成模型。
Gen-3 Alpha 是由 Runway 研发的最新一代视频生成模型,其在保真度、一致性和运动方面相较于 Gen-2 有重大突破,朝着建立通用世界模型的方向迈进了一步。该模型为 Runway 的文本生成视频、图像生成视频及文本生成图像工具提供动力,并支持现有的控制模式如运动画笔、高级相机控制和导演模式等,以及即将推出的更精细控制结构、风格和运动的新工具。
Gen-3 Alpha 能够生成高度逼真的人类角色,具备多样的动作、手势和情感,适合讲述更丰富的故事。其训练过程融合了视频和图像,且模型接受了详尽的时间密集型字幕训练,从而能够实现富有想象力的过渡和精确的关键帧控制。
此外,Gen-3 Alpha 还配备了全新的视觉审核系统和 C2PA 版权标准,为用户提供更安全的使用体验。对于有定制需求的行业客户,Runway 提供了专属模型定制服务,以满足特定的艺术和叙事需求。
Gen-3 Alpha 的开发是研究科学家、工程师和艺术家跨学科合作的成果,旨在解释各种风格和电影术语,推动视频生成进入新的前沿。
地址:https://runwayml.com/blog/introducing-gen-3-alpha/
✨ 3: Mixture-of-Agents
Mixture-of-Agents通过多层架构整合多个大语言模型,显著提升其性能表现
Mixture of Agents (MoA) 是一种新颖的方法,通过利用多个大型语言模型(LLM)的集体优势,显著提高性能,实现了最先进的效果。MoA采用分层架构,每一层由多个LLM代理组成,相比之下,MoA在AlpacaEval 2.0上的得分为65.1%,远超GPT-4 Omni的57.5%,而且仅使用开源模型。
MoA在AlpacaEval 2.0和MT-Bench排行榜上取得了领先位置。特别是在AlpacaEval 2.0上,仅使用开源模型,实现了从57.5% (GPT-4 Omni) 到65.1% (MoA) 的绝对提升7.6%。
地址:https://github.com/togethercomputer/moa
✨ 4: VideoLLaMA2
VideoLLaMA2 是一种增强视频时空建模和音频理解的语言模型。
VideoLLaMA2 是一个面向视频理解的多模态大模型,旨在提升对视频语义和音频理解的能力。这一项目结合了先进的空间-时间建模技术和音频理解能力,提供了精确且高级的多模态视频处理功能。代码开源并提供了训练、评估、和服务的相关代码,使开发者可以方便地进行再开发和应用。
地址:https://github.com/DAMO-NLP-SG/VideoLLaMA2
✨ 5: PianoMotion10M
PianoMotion10M 是一个用于钢琴演奏手部动作生成的百万级数据集和基准。
PianoMotion10M是一个大规模钢琴手部动作数据集和基准,用于钢琴演奏中的手部动作生成研究。由浙江大学和杭州电子科技大学的研究人员共同创建,该数据集包含116小时的钢琴演奏视频,从俯视角度拍摄,包含1000万个标注的手姿势。该数据集的主要目的是辅助钢琴教学,特别是在指导手部运动和指法方面。
通过PianoMotion10M,研究者和教育工作者可以更好地理解和模拟钢琴演奏的复杂手部动作,有助于提高音乐教育的智能化水平。
地址:https://github.com/agnJason/PianoMotion10M
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621