AI新工具(20240410) 两神仙又打架同时发布新功能;花开花落的过程间流逝视频用MagicTime生成;通过详细的风格指导来控制生成图像的风格和内容
✨ 1: Gemini 1.5 Pro
Gemini 1.5 Pro在180多个国家上线,支持原生音频理解、系统指令、JSON模式等新功能
Gemini 1.5 Pro是Google Labs开发的下一代人工智能API模型,旨在为开发者提供强大的功能以处理、分析和理解大量数据。这个模型已经在180多个国家通过Gemini API公开预览,带来了多项创新,包括原生音频理解、更易于文件处理的新File API、系统指令以及JSON模式等。以下用通俗的语言详细总结Gemini 1.5 Pro的功能以及使用场景:
地址:https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
✨ 2: GPT-4 Turbo with Vision
OpenAI发布集成视觉能力的先进人工智能模型GPT-4 Turbo with Vision
GPT-4 Turbo with Vision 是 OpenAI 发布的一种新技术,它将人工智能的文本处理能力与图像识别功能结合起来,使得这个模型不仅能处理文字信息,还能理解和分析图片内容。这项技术是在原有的 GPT-4 Turbo 模型的基础上增加的,支持最多 128,000 个 token(一个 token 可以是一个字或一个词的标识符)的处理能力,并且可以处理到 2023 年 12 月为止的知识库。
地址:https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
✨ 3: MagicTime
基于文本提示生成时间流逝视频的研究项目和技术框架
MagicTime是一个基于文本提示生成时间流逝视频的研究项目和技术框架。它专注于创建变形视频(metamorphic videos),即那些包含物理知识、持久性和强烈变化的视频,例如植物从种子生长成熟、日落日出的时间流逝等。这样的视频对于模型来说是一大挑战,因为它们不仅需要表达视觉信息,还需要在时间上展现出物体或场景的变化和成长过程。
MagicTime是一个强大的工具,适用于需要高质量时间流逝视频的多种场合,尤其是那些需要展示复杂变化过程或自然现象的场景。
地址:https://github.com/PKU-YuanGroup/MagicTime
✨ 4: DreamWalk
DreamWalk通过扩散指导实现风格空间的精细控制和探索。
DreamWalk是一个先进的图像生成方法,它允许人们通过详细的风格指导来控制生成图像的风格和内容。它基于被称作文本条件扩散模型的技术,这种类型的模型能产生令人印象深刻的图像,但在提供精细控制方面还有所不足。与像Photoshop这样的直接编辑工具不同,利用文本条件模型进行创作要求艺术家进行“提示工程”,即通过构建特殊的文本句子来控制输出图像中某个特定主题的风格或数量。
地址:https://mshu1.github.io/dreamwalk.github.io/
✨ 5: CityGaussian
大规模场景的实时、高质量渲染
CityGaussian(简称CityGS)是一种基于高斯原理的实时、高质量、大规模场景渲染技术。现有的3D场景重建和新视角合成技术虽然取得了显著进展,但在大规模3D高斯绘制(3DGS)的有效训练和实时渲染方面仍面临挑战。为了解决这些问题,CityGaussian采用了一种创新的分而治之的训练方法和细节级别(Level-of-Detail,LoD)策略,以实现大规模3DGS的高效训练和渲染。
地址:https://dekuliutesla.github.io/citygs/
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621