AI 新工具

AI新工具(20241030) 微软推出 GitHub Spark;中国科学院开源图像修复技术;手势视频重现技术TANGO





✨ 1: GitHub Spark

GitHub Spark,使用自然语言构建 Web 应用程序。

GitHub Spark

GitHub Spark 是一个由 GitHub 开发的创新工具,旨在利用人工智能,帮助用户轻松创建和分享个性化的微型应用程序(称为“sparks”),并能够直接在桌面和移动设备上使用,且无需编写或部署代码。

作为技术预览版,GitHub Spark 仍在不断完善中,未来将增加更多的协作选项、增强编辑器功能,并扩展运行时环境,进一步提升用户体验。

GitHub Spark 是一个创新的、有趣的工具,它简化了应用程序的创建过程,将个性化和可玩性带入软件开发中。

地址:https://githubnext.com/projects/github-spark

✨ 2: DreamClea

DreamClear是一项高性能的图像修复技术,专注于隐私安全的数据集管理。

DreamClear是一种高容量的真实世界图像恢复技术,旨在使用隐私安全的数据集进行图像恢复。该项目由来自中国科学院自动化研究所和字节跳动的多位研究人员共同开发,主要面向图像质量提升和细节恢复等应用场景。DreamClear通过利用先进的深度学习模型,恢复低质量(LQ)图像为高质量(HQ)图像,具有优秀的性能表现。该技术不仅考虑了图像恢复的效果,还注重确保数据隐私,从而符合现代社会对隐私保护的需求。

地址:https://github.com/shallowdream204/DreamClear

✨ 3: TANGO

TANGO是一种通过层次音频-运动嵌入和扩散插值进行的共语手势视频重现技术。

TANGO(Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation)是一种用于重新演绎共语手势的视频生成方法。该技术融合了层次化的音频-运动嵌入与扩散插值,能够根据给定的音频内容生成与之对应的手势动作视频。这种生成方法通过分析音频的特征,实现自然、流畅的人类手势表现。

TANGO为各种领域提供了丰富的应用潜力,尤其是在需要复杂手势表达和音频配合的场景中,展现了其独特的优势。

地址:https://github.com/CyberAgentAILab/TANGO

✨ 4: Promptwright

Promptwright是一款Python库,用于通过本地大语言模型生成合成数据集,操作简单灵活。

Promptwright 是一个由 Stacklok 开发的 Python 库,用于利用本地的 LLM(大规模语言模型)生成大规模的合成数据集。该库提供了一套灵活易用的接口,使用户能够生成以提示为导向的合成数据集,适用于各种场景。

Promptwright 的灵感来源于 redotvideo/pluto 项目,最初作为其分支开发,但最终进行了相当大的重写,以支持针对本地 LLM 模型的数据集生成,相较于 OpenAI 提供的服务,显得更为经济实惠。

Promptwright 是一个强大的工具,能够帮助用户高效地生成合成数据集,适用于广泛的应用场景,从教育到商业开发均可发挥重要作用。

地址:https://github.com/StacklokLabs/promptwright

✨ 5: MoGe

MoGe是一种强大的模型,能够从单幅图像中准确估计三维几何信息。

MoGe(单目几何估计模型)是一种用于从单幅开放域图像中准确恢复三维几何结构的强大模型。该模型结合了视觉变换器(ViT)编码器和卷积解码器,能够直接预测仿射不变的点图和排除几何未定义区域(如天空)的掩膜。基于这些信息,MoGe可以进一步推导出相机位移、焦距和深度图。

用户可以通过克隆MoGe的代码库和安装相关依赖来快速上手。该模型已在Hugging Face平台发布,可以方便地进行加载和推断。此外,提供了Web演示和多种推断脚本,以便用户在不同的场景下使用MoGe进行深度图和三维几何估计。

地址:https://github.com/microsoft/MoGe



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621