AI新工具(20240424) 微软开源phi-3-mini体验地址;将你的想法转换成代码,并从中构建出代码原型jemma
✨ 1: Lumina-T2X
基于文本的多功能生成模型
Lumina-T2X 是一种基于文本的多功能生成模型,能够根据文字指令,将噪声数据转化为图片、视频、3D对象的多视图图片以及语音。这个技术利用一种被称为流式大扩散变换器(Flow-based Large Diffusion Transformer, 简称Flag-DiT)的核心技术,能够处理高达70亿个参数,支持最长至128,000个序列长度的数据处理。通过这核心技术,Lumina-T2X实现了一种创新性的跨模态生成能力,即能在任何分辨率、长宽比和持续时间内生成输出内容。
地址:https://github.com/Alpha-VLLM/Lumina-T2X
✨ 2: jemma
能将你的想法转换成代码,并从中构建出代码原型
如果你有一个项目点子,比如想做一个“账单支付服务”、“2048游戏”或者“看板板”等,你只需要将这个想法告诉Jemma,Jemma就能为你提供一个可交互的网络原型。这个过程十分神奇,因为它几乎把你的任何想法都能变成一个基本的原型,让你能直观地看到想法的具体形态。 无论你是一个对编程一知半解的创意人士,还是一个寻求快速原型开发工具的经验丰富的开发者,Jemma都能为你提供强大的支持。通过简单的操作,它能够让复杂的想法迅速变成可交互的网络原型,极大地促进了创意的快速实现和项目的进展。
地址:https://github.com/tolitius/jemma
✨ 3: AppAgent
用户也能够利用最新的AI技术自动地和智能地操作手机应用,从而简化日常任务,增强辅助功能。
AppAgent是一个基于最新大型语言模型(LLM)技术的多模态智能代理框架,旨在操作智能手机应用程序。它通过模拟人类的交互行为,如点击和滑动,使代理能够在没有系统后端访问权限的情况下操作各种应用程序。AppAgent的核心功能是它的创新学习方法,代理可以通过自主探索或观察人类示范来学习如何导航和使用新的应用程序。这个过程生成的知识库可以供代理执行跨不同应用程序的复杂任务。
地址:https://github.com/mnotgod96/AppAgent
✨ 4: phi-3-mini
微软开源phi-3-mini,能在手机上运行的高性能语言模型,参数量达38亿。
demo:https://huggingface.co/chat/models/microsoft/Phi-3-mini-4k-instruct/ 模型:https://huggingface.co/models?other=phi3&sort=trending&search=microsoft
这个模型有3.8亿参数,经过3.3万亿词素的训练,其性能在学术基准测试和内部测试中与一些大模型如Mixtral 8x7B和GPT-3.5相当。比如,在MMLU测试中达到69%的成绩,在MT-bench测试中达到8.38分。Phi-3-mini之所以能在手机上运行,主要得益于它使用的训练数据集。这个数据集是phi-2所用数据集的扩展版,包括了大量过滤过的网络数据和合成数据,并且模型在鲁棒性、安全性以及对话格式方面都进行了深度对齐调整。
Phi-3-mini将强大的语言模型带到了手机这样的个人设备上,以支持保护隐私、离线使用、快速响应、节省费用以及提供个性化服务等多种场景。
地址:https://arxiv.org/abs/2404.14219
✨ 5: seemore
如何从零开始构建一个简单但功能强大的视觉语言模型
Seemore是一个结合了图像和语言处理的模型,用在需要处理和理解图像及其相关文本信息的场景中。
Seemore展示了如何从零开始构建一个简单但功能强大的视觉语言模型,开发者可以根据自己的需求对其进行改进和定制。这种类型的模型非常适合处理需要同时理解图像和语言内容的复杂任务。
地址:https://github.com/AviSoori1x/seemore
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621